深度思考通过混合人工智能“推理”模型从秘密行动中出现

一家名为Deep Cogito的新公司已经悄然出现,推出了一系列公开可用的人工智能模型,可以在“推理”和非推理模式之间切换。像OpenAI的o1这样的推理模型在数学和物理等领域显示出了巨大的前景,这要归功于它们通过一步一步地解决复杂问题来有效检查自身事实的能力。然而,这种推理是有代价的:更高的计算和延迟。这就是为什么像Anthropic这样的实验室正在追求“混合”模型架构,将推理组件与标准的非推理元素相结合。混合模型可以快速回答简单的问题,同时花费额外的时间考虑更具挑战性的查询。Deep Cogito的所有模型,称为Cogito 1,都是混合模型。Cogito声称,它们的表现超过了同尺寸的最佳开放模型,包括Meta和中国人工智能初创公司DeepSeek的模型。“每个模型都可以直接回答[……]或者在回答之前进行自我反思(就像推理模型一样),”该公司在一篇博文中解释道。“[所有]都是由一个小团队在大约75天内开发出来的。”Cogito 1模型的参数范围从30亿到700亿,Cogito表示,在未来几周和几个月内,范围高达6710亿的模型将加入它们。参数大致对应于模型解决问题的技能,参数越多通常越好。需要说明的是,Cogito 1并不是从零开始开发的。Deep Cogito在Meta的open Llama和阿里巴巴的Qwen模型的基础上创建了自己的模型。该公司表示,它应用了新的训练方法来提高基本模型的性能,并实现可切换的推理。根据Cogito内部基准测试的结果,最大的Cogito 1模型Cogito 70B在一些数学和语言评估上的推理性能优于DeepSeek的R1推理模型。推理功能被禁用的Cogito 70B也让Meta最近在通用AI测试LiveBench上发布的Llama 4 Scout模型黯然失色。每个Cogito 1模型都可以通过云提供商Fireworks AI和Together AI上的API下载或使用。Cogito 1与其他流行的公开可用的人工智能模型相比的性能功劳:深度Cogito“目前,我们仍处于(我们的)扩展曲线的早期阶段,只使用了通常为传统大型语言模型帖子/持续训练保留的一小部分计算,”Cogito在其博客帖子中写道。“展望未来,我们正在研究补充性的培训后自我提升方法。”根据加利福尼亚州的文件,总部位于旧金山的Deep Cogito成立于2024年6月。该公司的LinkedIn页面列出了两位联合创始人Drishan Arora和Dhruv Malhotra。马尔霍特拉之前是谷歌人工智能实验室DeepMind的产品经理,在那里他从事生成搜索技术的工作。阿罗拉是谷歌的高级软件工程师。根据PitchBook的说法,Deep Cogito的支持者包括南方公园社区,它雄心勃勃地旨在建立“通用超级智能”。该公司的创始人理解这个短语的意思是,人工智能可以比大多数人更好地执行任务,并“发现我们尚未想象的全新能力。”
《深度思考通过混合人工智能“推理”模型从秘密行动中出现》 在不经过允许的情况下,禁止用于商业用途或随意转载!

- 为什么网站测速都是红色,没有返回200状态码?
- CentOS终止更新之后的替代系统/方案
- 宝塔企业版/开心版安装升级(免绑定宝塔账号)
- Linux下面查找目录下面所有文件,并找到包含某个字符的文件
- 修改Windows远程桌面登录端口
- 把Python程序编译成Windows可执行文件exe的工具pyinstaller
- 解决:Could not resolve host: mirrorlist.centos.org; Unknown error解决方法
- 宝塔安装PHP的Swoole扩展的时候,CentOS 7提示No package 'libbrotlienc' found的解决方法
- ModuleNotFoundError: No module named 'PIL'解决方法
- 在Linux服务器上手动生成自签名证书
- Python数据类型中比较有趣的事情
- CentOS Linux下更换为阿里云的源repo