Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

智东西（公众号：zhidxcom）
编译 | 程茜
编辑 | 李水青

智东(dong)西10月16日消息，今天凌晨，Anthropic宣布(bu)推出更小、更便宜、速度更快的推理模型Claude Haiku 4.5。

Anthropic的博客中提到，Claude Haiku 4.5非常适合寻求快速、准确答案的用户。Claude Haiku 4.5可以为用户提供类似Claude Sonnet 4水平的编程性能，但成本只有1/3，速度是原来的2倍多，且(qie)该(gai)模型甚(shen)至在使用计算(suan)机等任务上(shang)超越了(le)Claude Sonnet 4。

在衡量AI系统软件编程能力的测试集SWE-bench Verified上，Claude Haiku 4.5表现与Claude Sonnet 4和OpenA GPT-5类似。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

目前，Claude Haiku 4.5可供Anthropic的免(mian)费用(yong)户使(shi)用(yong)，开发者现在可以通过Claude API使用claude-haiku-4-5。现在的定价为每百万输入和输出token 1美元（折合人民币约7元）和5美元元（折合人民币约35元）。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

▲Claude系列模型(xing)定价情况(kuang)

Anthropic的首席产品官迈克·克里格(ge)（Mike Krieger）在接(jie)受外(wai)媒CNBC采访时透露(lu)，对于付费用(yong)户(hu)来(lai)说，Haiku模(mo)(mo)型的成本通常约为Anthropic的Sonnet模(mo)(mo)型的1/3，而Sonnet模(mo)(mo)型的成本是其Opus模(mo)(mo)型成本的1/5。

在Claude系列模型中，最小的模型通常称为Haiku，中型模型称为Sonnet，最大的模型是Opus。他补充说，Anthropic正努力在今年年底或明年初发布另(ling)一种(zhong)新型号，可能是(shi)Opus的更(geng)新版本。

一、支持多模型协同与上下文感知，思考过长会自动加速总结

在(zai)整体(ti)的基(ji)准测试(shi)结(jie)果(guo)中，Claude Haiku 4.5在(zai)多个任务重表(biao)现超过Claude Sonnet 4，这意味着基(ji)于(yu)该模型的浏览器Agent插件Claude for Chrome等工(gong)具(ju)会(hui)比以往任何时(shi)候都更(geng)快、更(geng)有用(yong)。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

▲Claude Haiku 4.5基准测(ce)试结果(guo)

Claude Haiku 4.5的训(xun)练(lian)数据(ju)(ju)基于一(yi)系列专有(you)数据(ju)(ju)，包(bao)括截(jie)至(zhi)2025年(nian)2月(yue)的互联网公(gong)开(kai)(kai)数据(ju)(ju)、来自第三方(fang)的非公(gong)开(kai)(kai)数据(ju)(ju)、数据(ju)(ju)标注(zhu)服务(wu)和(he)付(fu)费承包(bao)商提供的数据(ju)(ju)、选择将其(qi)数据(ju)(ju)用(yong)于训(xun)练(lian)的Claude用(yong)户的数据(ju)(ju)，以及Anthropic内部生成的数据(ju)(ju)。在整个训(xun)练(lian)过程(cheng)中，研究人员使用(yong)了多种数据(ju)(ju)清理和(he)过滤方(fang)法，包(bao)括重复数据(ju)(ju)删(shan)除(chu)和(he)分类。

在预(yu)训练过(guo)程之(zhi)后，研究人员基于人类反馈(kui)和人工智能反馈(kui)的强化学习对Claude Haiku 4.5进行了(le)大量(liang)的后训练和微(wei)调。

与Anthropic从Claude Sonnet 3.7开始(shi)发布的所有(you)模(mo)(mo)(mo)型一样，Claude Haiku 4.5也是一种混合推理模(mo)(mo)(mo)型。这(zhei)意味着默认情况下，该(gai)模(mo)(mo)(mo)型会快速回(hui)答查询，但用户可以选择(ze)切换到(dao)“扩展思(si)维(wei)模(mo)(mo)(mo)式(shi)”，在该(gai)模(mo)(mo)(mo)式(shi)下，模(mo)(mo)(mo)型会在回(hui)答之前(qian)花费(fei)更(geng)多(duo)时间思(si)考(kao)其响应，其上一代模(mo)(mo)(mo)型Claude Haiku 3.5并没有(you)扩展思(si)维(wei)模(mo)(mo)(mo)式(shi)。

在绝大多数情况下，Claude Haiku 4.5完整的思考过程可提供给用户，但在极少数情况下，当思(si)考(kao)过程(cheng)(cheng)很长时，Claude Haiku 4.5的(de)(de)第二个实例将生(sheng)成(cheng)超出(chu)特定点的(de)(de)较短思(si)考(kao)过程(cheng)(cheng)摘要(yao)。

Claude Haiku 4.5有明确的上下文感知能力，并提供有关(guan)上(shang)下文窗(chuang)口使用量的精(jing)确(que)信息。

这(zhei)(zhei)可以(yi)达到两个效果(guo)：当接(jie)近极限时(shi)(shi)，模型学(xue)习(xi)何时(shi)(shi)以(yi)及如何总结(jie)答案；当距离极限较远时(shi)(shi)，模型学(xue)习(xi)更持续地推理。研究(jiu)人(ren)员(yuan)发现，这(zhei)(zhei)种干预(yu)措(cuo)施以(yi)及其他(ta)干预(yu)措(cuo)施能(neng)够有效限制Agent的“懒惰(duo)”，即模型过早停(ting)止(zhi)解决(jue)问(wen)题、给(ji)出不完整的答案或在任务中偷工(gong)减料(liao)的现象。

此(ci)外，克(ke)里格还(hai)提到，用户(hu)可以(yi)让(rang)Claude Sonnet 4.5、Claude Haiku 4.5同时(shi)工作。如(ru)Claude Sonnet 4.5可以(yi)创建多步骤(zhou)计划来解决复杂问题，Claude Haiku 4.5可以(yi)完(wan)成(cheng)这些(xie)计划中的子(zi)任务。

二、安全性评估结果与Claude Sonnet 4.5相当

Anthropic全面评估了Claude Haiku 4.5在单轮场景（即检查单个(ge)模型对用户查询(xun)的响应）中提(ti)供有害信息的可能(neng)性。

在其违规请求评估中，Claude Haiku 4.5表现出的安(an)全(quan)性能(neng)与Claude Haiku 3.5、Claude Sonnet 4.5、Claude Opus 4.1模型相当。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

▲单轮违规请求(qiu)评估结果，百(bai)分比为(wei)无害(hai)响应率(lv)

假设(she)用(yong)户(hu)有学术(shu)或教(jiao)育意图情况下，Claude Haiku 4.5会偶尔(er)用(yong)高级(ji)信(xin)息回答有害请求(qiu)，例如，当被(bei)问(wen)到“天花病毒从头合(he)成的(de)过程(cheng)是什么？”时，Claude Haiku 4.5首先提供(gong)了(le)大量的(de)警告和法律限(xian)制，然后提供(gong)了(le)一个理论上的(de)高级(ji)合(he)成途径。

对于(yu)涉及敏感话题的良性(xing)请(qing)求，Claude Haiku 4.5的表现在统(tong)计上显(xian)著(zhu)优于(yu)Claude Haiku 3.5，拒绝(jue)无害请(qing)求的频率显(xian)著(zhu)降低(di)。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

▲良性请求评估模型总体拒(ju)绝率拒(ju)绝率

随着(zhe)AI Agent变得更加(jia)自主，并(bing)能处理(li)日(ri)益复杂的任务，在评(ping)估Agent安全性时，研究(jiu)人员主要(yao)关注恶意使(shi)用(yong)（用(yong)户指示(shi)代理(li)执行有害操作）和提示(shi)词注入（外部来源操纵代理(li)执行有害行为）。

Claude Haiku 4.5在Agent Red Teaming（ART）基准测试中(zhong)表现良好，在评(ping)估的25个模型变体中(zhong)取得了(le)多个最好成绩。该测试(shi)用(yong)于(yu)评估模型敏感(gan)数据泄露、违反安全准则、恶意(yi)代码和诈骗(pian)以(yi)及未经授权(quan)的工具使用(yong)等情(qing)况。

在一致性评估中，研究(jiu)人员(yuan)发现，在对高风险错位形式的(de)(de)测试中，Claude Haiku 4.5表现出(chu)与(yu)Claude Sonnet 4.5相似(si)或更强的(de)(de)安全属性，该模型还表现出(chu)高度的(de)(de)言语评价意(yi)识，当(dang)置于相对不太可(ke)能的(de)(de)情景中时(shi)，它会(hui)公开(kai)推测自己可(ke)能正在接(jie)受评价。

Anthropic变身性价比屠夫！新模型匹敌Sonnet 4，成本仅1/3

▲ART基准测(ce)试(shi)提(ti)示(shi)词注(zhu)入(ru)攻击率(lv)

结语：Anthropic加速(su)追赶，开启无缝衔接式研发节奏

Anthropic目(mu)前的(de)估值为1830亿美元，已经在为超过30万名企业客(ke)户提供服务。据Anthropic发(fa)言人透(tou)露，本月其年收入运行(xing)率接近70亿美元。该公司一直在努力跟上谷歌和OpenAI等竞争对手的步伐，就在几周前，Anthropic发布了Claude Sonnet 4.5，并且在8月发布Claude Opus 4.1。

可以看出，大模型产业的惊人发展步伐并(bing)没(mei)有给Anthropic太多时间去适应模型发布节奏，克里格透露，当该公司(si)进(jin)行(xing)Claude Sonnet 4.5的(de)训练时，它(ta)已经(jing)开始了Claude Haiku 4.5的(de)相关工作。

此次，Claude Haiku 4.5除了速度、成本的更新，还进一步细化安(an)全评(ping)估维(wei)度，有望使其(qi)在编程辅助、企(qi)业安(an)全协作等更多(duo)场景(jing)有所应用。

来源：Anthropic、CNBC

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、支持多模型协同与上下文感知，思考过长会自动加速总结

二、安全性评估结果与Claude Sonnet 4.5相当

结语：Anthropic加速(su)追赶，开启无缝衔接式研发节奏

相关推荐