智东西(公众号:zhidxcom)
编译 | 金碧辉
编辑 | 程茜

智东(dong)西5月15日(ri)消息,据The Information昨(zuo)日(ri)傍晚报道(dao),继OpenAI、谷歌之后,AI独角兽(shou)Anthropic即(ji)将推(tui)(tui)出深(shen)度(du)推(tui)(tui)理模型,推(tui)(tui)出Claude Sonnet和Claude Opus两(liang)大模型升级版本,全球(qiu)AI竞赛进入“深(shen)度(du)思考”新(xin)阶段。

据知情人士透露,Anthropic将(jiang)通过(guo)“推理(li)-工具调用”动态切换(huan)机制,该(gai)机制可自主发现问题并(bing)修正(zheng)错(cuo)误,将(jiang)AI系(xi)统的自主决策(ce)能(neng)力推向新(xin)高(gao)度。该(gai)技术已在(zai)代码(ma)生成、市场分析(xi)等复杂场景验证效(xiao)能(neng),Anthropic计划在(zai)未来数周正(zheng)式发布。

一、支持推理与工具调用无缝切换,可自主修正错误

不同于现有推理(li)模型,Anthropic新模型首次实现了“推理(li)模式”与(yu)“工具调用”的无缝转换(huan)。当Anthropic新模型使用外部工具受阻时,该(gai)模型可立即(ji)切换(huan)至深(shen)度推理(li)状态,分析问题(ti)根源并(bing)自我修正。

虽然OpenAI等竞(jing)争对手宣称其o3、o4-mini模型已具备和Anthropic类似(si)的(de)推(tui)理能(neng)力,但(dan)据(ju)外媒The Information爆料,Anthropic的(de)深(shen)度思考模型在复(fu)杂任务处理效率上(shang)显现优势,在相同市场分析任务中,Anthropic新模型决策路(lu)径缩(suo)短30%,数(shu)据(ju)调用精准(zhun)度提升(sheng)22%。

以曼哈顿咖啡店(dian)选址为(wei)例,Anthropic新模型(xing)的系统(tong)(tong)会先检索(suo)全美趋势数(shu)据,通过本地人口统(tong)(tong)计(ji)数(shu)据分析(xi),自动修正初(chu)始方案的偏差。

在(zai)软件开发场景,Anthropic新模(mo)型具备代码自动测试功能(neng)。Anthropic新模(mo)型在(zai)生成代码后能(neng)立(li)即启动自检程序(xu),发现错误(wu)即暂停执行,通过(guo)多(duo)维度推(tui)理定位(wei)问(wen)题并修正。

外(wai)媒The Information援引Anthropic新(xin)模型的测(ce)试(shi)(shi)人(ren)员证实,Anthropic新(xin)模型的系(xi)统处(chu)理“提升应用(yong)运行速(su)度”等抽(chou)象(xiang)指令时,可在无需人(ren)工干预情况下,自主完成方案设(she)计(ji)、测(ce)试(shi)(shi)验(yan)证全流程(cheng)。

二、前代产品评价两极分化,企业仍加大核心计算技术投入

尽管用户对前(qian)代Claude 3.7 Sonnet的评价(jia)呈现两极分化,但Anthropic仍(reng)持续加大(da)“测试(shi)时计算量”投入。

一部分用户对其称赞(zan)有加,在复(fu)杂的会计分析(xi)和数据可视(shi)化任务中,Claude 3.7 Sonnet展(zhan)现出(chu)极(ji)高效率,短(duan)短(duan)十秒即可完(wan)成任务。

但(dan)另一部分用户则提出诸多质疑,如模型(xing)知识(shi)储备存在局限,在回(hui)答(da)重要(yao)问题时(shi)容(rong)易(yi)出错,甚至在面对(dui)美国(guo)总统等(deng)常识(shi)性问题时(shi)也会误答(da);使(shi)(shi)用成本(ben)高昂,每百万输入token费用为3美元(yuan)(折(zhe)合(he)人民币约为25.59元(yuan)),每百万输出token费用达15美元(yuan)(折(zhe)合(he)人民币约为107.95元(yuan)),特别是(shi)使(shi)(shi)用思(si)考(kao)功能时(shi)开(kai)支显著上升,对(dui)个人用户和小(xiao)团队而言负担(dan)较重;还有用户反馈模型(xing)存在忽(hu)视指令、过度工(gong)程化倾向(xiang),以及在实际使(shi)(shi)用中上下文窗口利用效率存疑等(deng)问题。

这(zhei)项(xiang)支(zhi)撑(cheng)推理模型(xing)的核心(xin)技(ji)术,通过(guo)动态(tai)分配计算资源优化(hua)思考深(shen)度。据The Information报道,某知情人士指出,这(zhei)种技(ji)术路线选择凸显企业对(dui)该架构的长期信心(xin)。

结语:Anthropic新框架预研,推动AI自主决策迈向实用

Anthropic的“推理-工具调用”框架虽仍处于预(yu)研(yan)阶段,将AI自主决策(ce)能(neng)力(li)推向实(shi)用化阶段。该模型在代(dai)码迭代(dai)、商业(ye)逻(luo)辑(ji)推演等场景中已显现效能(neng)提(ti)升潜力(li)。面(mian)对OpenAI等机构的技(ji)术路线竞争,以及模型指令(ling)对齐的行(xing)业(ye)性难题,相关(guan)系(xi)统的工程(cheng)化路径尚未完全定型。

随着各大(da)机构加速逼近自主(zhu)决策的技术临界点,如何在增强自主(zhu)性与确保可控性之间取得平衡,或将成(cheng)为下一代AI系统的关键挑(tiao)战。

来(lai)源:The Information