重磅！OpenAI推o3-mini新模型，被DeepSeek逼急？定价仍打不过

智东西（公众号：zhidxcom）
作者 | ZeR0
编辑 | 漠影

智东西2月1日报道，今日凌晨，OpenAI发布全新推理模型o3-mini。

OpenAI称这是其最具成本效益的推理模型，复杂推理和对话能力显著提升，在科学、数学、编程等领域的性能表现超过前代o1模型，同时保持了o1-mini的低成本和低延迟，并可与联网搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用，企业版访问权限将在一周内推出。

显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天，ChatGPT首次向所有用户免费提供推理模型：用户可(ke)在ChatGPT中选择“Reason”按钮来试用o3-mini。

ChatGPT Pro用户可无限制访问，Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。

付费用户还可以选择更高智能的版本“o3-mini-high”。该版本(ben)需要更长的时(shi)间才能生成响应。

和o1模型一样，o3-mini模型的知识截止日期为2023年10月，上(shang)下文窗(chuang)口为20万(wan)个(ge)token，最多可输出10万(wan)个(ge)token。

有低（low）、中（medium）、高(gao)（high）三个版本的o3-mini，供开发者针对(dui)其特定用(yong)例进行优(you)化。

o3-mini目(mu)前不支持视觉功能(neng)，因(yin)此(ci)开(kai)发者(zhe)仍(reng)需使用o1进行视觉推理任务。

即日起，o3-mini在Chat Completions API、Assistants API、Batch API中(zhong)推出(chu)。

OpenAI称相较推出GPT-4时(shi)，每个token的(de)价格已经降(jiang)低了95%，同时(shi)保持了顶(ding)级的(de)推理能力。不过o3-mini的(de)API定价还是(shi)高于(yu)DeepSeek模型。

▲OpenAI模型与(yu)DeepSeek模型API定价对比（智东西(xi)制图）

安全方面(mian)(mian)，OpenAI发(fa)现(xian)o3-mini在(zai)具(ju)有挑战(zhan)性的安全性和越狱方面(mian)(mian)明显超过GPT-4o。

一、详解o3-mini：科学数学编程能力进化，延迟明显降低

OpenAI发布(bu)了(le)o3-mini的37页(ye)详细报告，涵盖模(mo)型的介绍、数据和训练、测试(shi)范围(wei)、安全挑战和评(ping)估、外部红队测试(shi)、准(zhun)备框架评(ping)估、多语(yu)言性(xing)能以及结(jie)论(lun)等(deng)多个方(fang)面。

o3-mini针(zhen)对科学(xue)、数学(xue)、编程推(tui)理进行了优化，同(tong)时响应速度(du)更(geng)快。

该模(mo)型在GPQA Diamond（理化生(sheng)）、AIME 2022-2024（数(shu)学）、Codeforces ELO（编程）基准测试(shi)中，o3-mini的分(fen)数(shu)分(fen)别为0.77、0.80、2036，比肩(jian)或(huo)超过o1推(tui)理模(mo)型。

在14种(zhong)语言的MMLU测(ce)试(shi)集上，o3-mini的表现显著(zhu)优于o1-mini，展示了其(qi)在多语言理解方面的进步。

外部专家测试人(ren)员的(de)评(ping)估表明，与(yu)o1-mini相比，o3-mini的(de)答案更准确、更清晰，推理(li)能力更强。

在(zai)人(ren)类偏好评估中，测试人(ren)员在(zai)56%的(de)时间里更(geng)喜欢o3-mini的(de)回答，并(bing)观察(cha)到在(zai)困难的(de)现实问(wen)题上(shang)(shang)重大错(cuo)误减少(shao)了39%。在(zai)中推理能(neng)力(li)下，o3-mini在(zai)一些最具(ju)挑战(zhan)性的(de)推理和智力(li)评估（包括AIME和GPQA）上(shang)(shang)的(de)表现与o1相当。

o3-mini的智能可媲美(mei)o1，提供了(le)更快(kuai)的性能、更高(gao)的效(xiao)率。中(zhong)推理能力下，该模型(xing)还在额外的数学和事实性评估中(zhong)表现(xian)出(chu)色。在A/B测试中(zhong)，o3-mini的响(xiang)(xiang)应速度比o1-mini快(kuai)24%，平(ping)均响(xiang)(xiang)应时间为7.7秒，而o1-mini为10.16秒。

数学方面(mian)，在(zai)低推(tui)理能力(li)(li)下，o3-mini的表现与o1-mini相(xiang)当，而在(zai)中推(tui)理能力(li)(li)下，o3-mini的表现与o1相(xiang)当。同时，在(zai)高推(tui)理能力(li)(li)下，o3-mini的表现优于o1-mini和o1。

具(ju)有高推理能力的o3-mini在(zai)FrontierMath上的表现优于其前代。

在FrontierMath测试上，当被提示(shi)使(shi)用(yong)Python工具时，具有高推理能力的o3-mini在第(di)一次尝试时解(jie)决(jue)了超过(guo)32%的问题(ti)，其中包括超过(guo)28%的具有挑战性的（T3）问题(ti)。

o3-mini随着(zhe)推理能力的(de)增加逐(zhu)渐获得更高的(de)Elo分数，均优于o1-mini。在中推理能力下(xia)，它的(de)表现与(yu)o1相当。

o3-mini是OpenAI在SWE-bench验(yan)证中(zhong)表(biao)现(xian)最好(hao)的(de)模型。

关于(yu)SWE-bench验证结果(guo)的(de)更多数据如下图所示。o3-mini (tools) 性(xing)能最好，为(wei)(wei)61%。使用Agentless而(er)非内部工(gong)具的(de)o3-mini上市候选产(chan)品得分(fen)为(wei)(wei)39%。o1是表现第二好的(de)模型，得分(fen)为(wei)(wei)48%。

在LiveBench编程(cheng)测试中，高推(tui)理能力的o3-mini得(de)分全面超过o1-high。

二、多项安全评估超过GPT-4o

OpenAI还详细介绍了o3-mini在多(duo)个安全评估中的表(biao)现(xian)，称o3-mini在具有挑战性的安全性和越狱(yu)评估方面明显超越了GPT-4o。

在(zai)不允许的内容评(ping)估中，与(yu)GPT-4o相比，o3-mini在(zai)标准拒(ju)绝评(ping)估和(he)挑战性拒(ju)绝评(ping)估中表现相似，但在(zai)XSTest中略逊一筹。

在越狱(yu)评估中，o3-mini与(yu)o1-mini相比，在生产越狱(yu)、越狱(yu)增强(qiang)示(shi)例、StrongReject和人(ren)类来(lai)源的越狱(yu)评估中表现(xian)相当。

在幻觉(jue)评估中(zhong)，使(shi)用PersonQA数据集，o3-mini的准(zhun)确率(lv)为21.7%，幻觉(jue)率(lv)为14.8%，与GPT-4o、o1-mini相(xiang)(xiang)比表现相(xiang)(xiang)当或更好。

在(zai)(zai)公(gong)平性(xing)和偏见(jian)评(ping)估中，o3-mini在(zai)(zai)BBQ评(ping)估中的表(biao)现(xian)与o1-mini相似，但(dan)在(zai)(zai)处(chu)理(li)模糊问题时(shi)的准确性(xing)略有(you)下降。

外(wai)部红队测试显示，o3-mini在与o1的比较中表现相(xiang)当，两者都(dou)显著(zhu)优于GPT-4o。

在(zai)Gray Swan Arena的越(yue)狱测(ce)试中，o3-mini的平均用户攻击成功(gong)率为3.6%，与o1-mini和GPT-4o相比略高。

准备框架评估涵盖了网络安(an)全、CBRN（化学、生物、放(fang)射性、核）、说(shuo)服(fu)力(li)、模(mo)型自主性四个(ge)风险类别。o3-mini在(zai)网络安(an)全方面(mian)被评为“低风险”，在(zai)CBRN、说(shuo)服(fu)力(li)、模(mo)型自主性方面(mian)被评为“中等风险”，在(zai)生物威胁创建(jian)方面(mian)的表现达到了“中等风险”阈值，但在(zai)核和放(fang)射性武器发展方面(mian)的能力(li)有限。

按其评级，只有缓(huan)解后得分为“中(zhong)等”或(huo)以(yi)(yi)下的模型才可(ke)以(yi)(yi)部署(shu)，得分“高等”或(huo)以(yi)(yi)下的模型才可(ke)以(yi)(yi)进一步开发。

三、o3基准测试成本或超3000万美元，OpenAI正谈判2900亿元新融资

自去年9月发布o1以来，OpenAI一直(zhi)在迭(die)代(dai)其(qi)推理模(mo)(mo)型，去年年底发布的o3模(mo)(mo)型是(shi)其(qi)最新一代(dai)AI推理模(mo)(mo)型。

高(gao)端版o3模型针(zhen)对高(gao)计算应用，而o3-mini迎合(he)了需要兼顾经济高(gao)效(xiao)的用户需求。这(zhei)反映了OpenAI试图平衡可访问(wen)性和高(gao)级付费(fei)产(chan)品的策略。

这两(liang)天也不知道是(shi)被DeepSeek逼(bi)急了(le)，还是(shi)为了(le)给o3-mini预热，OpenAI联合创始人(ren)(ren)兼(jian)CEO萨(sa)姆(mu)·阿(a)尔特曼(man)在(zai)社交平(ping)台(tai)上(shang)非常活跃，又(you)是(shi)夸DeepSeek R1令人(ren)(ren)印象(xiang)深(shen)刻，又(you)说OpenAI将提供(gong)更好的模型，又(you)强调更多计算很重(zhong)要(yao)。

昨天他还大张旗鼓地宣布第一个完整8机架GB200 NVL72服务器正在微软Azure为OpenAI运行。

印度政府本周五发布的《2024-2025经济调查》报告显示，OpenAI可能已经花费超过3000万美元来对(dui)其(qi)最新AI推理模型o3进行基准测试(shi)。

该报告写道，OpenAI o3模型处理能力的突破付出了非常高的代价。ARC-AGI基准测试被认为是最具挑战性的AI任务之一，OpenAI的低效配置模型导致了20万美元的成本。高效模型的成本更是高达低效模型的172倍，也就是大约3440万美元。

阿尔特曼(man)前几(ji)天还晒出(chu)和微(wei)(wei)软董事长(zhang)兼(jian)CEO萨(sa)提(ti)亚·纳德拉的(de)合照，说(shuo)微(wei)(wei)软和OpenAI合作的(de)下(xia)一阶段将会比任何人想象的(de)都要好得多(duo)。

不过微软作为OpenAI最大投资者的(de)名号(hao)，可能要被日本软银集团夺走。

近期软银集团(tuan)创始人兼CEO孙正义与阿尔(er)特曼(man)往(wang)来愈发密切(qie)，上周宣布联手(shou)成立(li)AI巨(ju)型(xing)项目“星际之门（Stargate）”，未来四年投资5000亿美(mei)元（约合(he)人民币3.6万亿元）建设AI基础设施，昨天又(you)被外媒曝出将成为OpenAI新(xin)一轮巨(ju)额(e)融资的(de)领投方。

据外媒报道，OpenAI正在进行初步谈判，计划在一轮融资中筹集至多400亿美元（约合人民币2901亿元），估值将达到3000亿美元（约合人民币2.18万亿元）。日本软银集团将领投此轮融资，正在商谈投资150亿至250亿美元，剩余资金将来(lai)自其(qi)他投资者。

加上之前软银承诺向“星际之门”投资的逾150亿美元，最终软银可能会在与OpenAI的合作上投入超过400亿美元。这将成为(wei)软银迄(qi)今(jin)最大的投(tou)资之一。

结语：狂卷性价比，高质AI推理模型走向普及

此前马斯(si)克等(deng)科技大佬已经公开质疑过如何承担建造“星际(ji)之门”的巨额成(cheng)本(ben)。在DeepSeek高性能低成(cheng)本(ben)开源模型的影响下，美国(guo)AI产业(ye)界和(he)华尔街(jie)投资者(zhe)对OpenAI等(deng)其他美国(guo)AI开发商的大手(shou)笔支出策略更是疑窦丛生。

OpenAI最新推出的(de)o3-mini，也(ye)被视作抵御DeepSeek模型冲(chong)击的(de)最新举措，令业(ye)界(jie)尤其关(guan)注。

在(zai)新闻稿中，OpenAI称o3-mini的发布标志着该公司向(xiang)突破(po)高性价(jia)比(bi)智(zhi)能(neng)(neng)界(jie)限的使(shi)命又迈进了一步，让高质量(liang)的AI更(geng)加触手可及，OpenAI致力(li)于(yu)走在(zai)前(qian)沿，构建能(neng)(neng)够(gou)平(ping)衡智(zhi)能(neng)(neng)、效率和安全性的大规模(mo)模(mo)型。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、详解o3-mini：科学数学编程能力进化，延迟明显降低

二、多项安全评估超过GPT-4o

三、o3基准测试成本或超3000万美元，OpenAI正谈判2900亿元新融资

结语：狂卷性价比，高质AI推理模型走向普及

相关推荐