智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西2月1日报道,今日凌晨,OpenAI发布全新推理模型o3-mini。
OpenAI称这是其最具成本效益的推理模型,复杂推理和对话能力显著提升,在科学、数学、编程等领域的性能表现超过前代o1模型,同时保持了o1-mini的低成本和低延迟,并可与联网搜索功能搭配使用。
o3-mini已在ChatGPT和API中可用,企业版访问权限将在一周内推出。
显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天,ChatGPT首次向所有用户免费提供推理模型:用户可(ke)在ChatGPT中选择“Reason”按钮来试用o3-mini。
ChatGPT Pro用户可无限制访问,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。
付费用户还可以选择更高智能的版本“o3-mini-high”。该版本(ben)需要更长的时(shi)间才能生成响应。
和o1模型一样,o3-mini模型的知识截止日期为2023年10月,上(shang)下文窗(chuang)口为20万(wan)个(ge)token,最多可输出10万(wan)个(ge)token。
有低(low)、中(medium)、高(gao)(high)三个版本的o3-mini,供开发者针对(dui)其特定用(yong)例进行优(you)化。
o3-mini目(mu)前不支持视觉功能(neng),因(yin)此(ci)开(kai)发者(zhe)仍(reng)需使用o1进行视觉推理任务。
即日起,o3-mini在Chat Completions API、Assistants API、Batch API中(zhong)推出(chu)。
OpenAI称相较推出GPT-4时(shi),每个token的(de)价格已经降(jiang)低了95%,同时(shi)保持了顶(ding)级的(de)推理能力。不过o3-mini的(de)API定价还是(shi)高于(yu)DeepSeek模型。
▲OpenAI模型与(yu)DeepSeek模型API定价对比(智东西(xi)制图)
安全方面(mian)(mian),OpenAI发(fa)现(xian)o3-mini在(zai)具(ju)有挑战(zhan)性的安全性和越狱方面(mian)(mian)明显超过GPT-4o。
一、详解o3-mini:科学数学编程能力进化,延迟明显降低
OpenAI发布(bu)了(le)o3-mini的37页(ye)详细报告,涵盖模(mo)型的介绍、数据和训练、测试(shi)范围(wei)、安全挑战和评(ping)估、外部红队测试(shi)、准(zhun)备框架评(ping)估、多语(yu)言性(xing)能以及结(jie)论(lun)等(deng)多个方(fang)面。
o3-mini针(zhen)对科学(xue)、数学(xue)、编程推(tui)理进行了优化,同(tong)时响应速度(du)更(geng)快。
该模(mo)型在GPQA Diamond(理化生(sheng))、AIME 2022-2024(数(shu)学)、Codeforces ELO(编程)基准测试(shi)中,o3-mini的分(fen)数(shu)分(fen)别为0.77、0.80、2036,比肩(jian)或(huo)超过o1推(tui)理模(mo)型。
在14种(zhong)语言的MMLU测(ce)试(shi)集上,o3-mini的表现显著(zhu)优于o1-mini,展示了其(qi)在多语言理解方面的进步。
外部专家测试人(ren)员的(de)评(ping)估表明,与(yu)o1-mini相比,o3-mini的(de)答案更准确、更清晰,推理(li)能力更强。
在(zai)人(ren)类偏好评估中,测试人(ren)员在(zai)56%的(de)时间里更(geng)喜欢o3-mini的(de)回答,并(bing)观察(cha)到在(zai)困难的(de)现实问(wen)题上(shang)(shang)重大错(cuo)误减少(shao)了39%。在(zai)中推理能(neng)力(li)下,o3-mini在(zai)一些最具(ju)挑战(zhan)性的(de)推理和智力(li)评估(包括AIME和GPQA)上(shang)(shang)的(de)表现与o1相当。
o3-mini的智能可媲美(mei)o1,提供了(le)更快(kuai)的性能、更高(gao)的效(xiao)率。中(zhong)推理能力下,该模型(xing)还在额外的数学和事实性评估中(zhong)表现(xian)出(chu)色。在A/B测试中(zhong),o3-mini的响(xiang)(xiang)应速度比o1-mini快(kuai)24%,平(ping)均响(xiang)(xiang)应时间为7.7秒,而o1-mini为10.16秒。
数学方面(mian),在(zai)低推(tui)理能力(li)(li)下,o3-mini的表现与o1-mini相(xiang)当,而在(zai)中推(tui)理能力(li)(li)下,o3-mini的表现与o1相(xiang)当。同时,在(zai)高推(tui)理能力(li)(li)下,o3-mini的表现优于o1-mini和o1。
具(ju)有高推理能力的o3-mini在(zai)FrontierMath上的表现优于其前代。
在FrontierMath测试上,当被提示(shi)使(shi)用(yong)Python工具时,具有高推理能力的o3-mini在第(di)一次尝试时解(jie)决(jue)了超过(guo)32%的问题(ti),其中包括超过(guo)28%的具有挑战性的(T3)问题(ti)。
o3-mini随着(zhe)推理能力的(de)增加逐(zhu)渐获得更高的(de)Elo分数,均优于o1-mini。在中推理能力下(xia),它的(de)表现与(yu)o1相当。
o3-mini是OpenAI在SWE-bench验(yan)证中(zhong)表(biao)现(xian)最好(hao)的(de)模型。
关于(yu)SWE-bench验证结果(guo)的(de)更多数据如下图所示。o3-mini (tools) 性(xing)能最好,为(wei)(wei)61%。使用Agentless而(er)非内部工(gong)具的(de)o3-mini上市候选产(chan)品得分(fen)为(wei)(wei)39%。o1是表现第二好的(de)模型,得分(fen)为(wei)(wei)48%。
在LiveBench编程(cheng)测试中,高推(tui)理能力的o3-mini得(de)分全面超过o1-high。
二、多项安全评估超过GPT-4o
OpenAI还详细介绍了o3-mini在多(duo)个安全评估中的表(biao)现(xian),称o3-mini在具有挑战性的安全性和越狱(yu)评估方面明显超越了GPT-4o。
在(zai)不允许的内容评(ping)估中,与(yu)GPT-4o相比,o3-mini在(zai)标准拒(ju)绝评(ping)估和(he)挑战性拒(ju)绝评(ping)估中表现相似,但在(zai)XSTest中略逊一筹。
在越狱(yu)评估中,o3-mini与(yu)o1-mini相比,在生产越狱(yu)、越狱(yu)增强(qiang)示(shi)例、StrongReject和人(ren)类来(lai)源的越狱(yu)评估中表现(xian)相当。
在幻觉(jue)评估中(zhong),使(shi)用PersonQA数据集,o3-mini的准(zhun)确率(lv)为21.7%,幻觉(jue)率(lv)为14.8%,与GPT-4o、o1-mini相(xiang)(xiang)比表现相(xiang)(xiang)当或更好。
在(zai)(zai)公(gong)平性(xing)和偏见(jian)评(ping)估中,o3-mini在(zai)(zai)BBQ评(ping)估中的表(biao)现(xian)与o1-mini相似,但(dan)在(zai)(zai)处(chu)理(li)模糊问题时(shi)的准确性(xing)略有(you)下降。
外(wai)部红队测试显示,o3-mini在与o1的比较中表现相(xiang)当,两者都(dou)显著(zhu)优于GPT-4o。
在(zai)Gray Swan Arena的越(yue)狱测(ce)试中,o3-mini的平均用户攻击成功(gong)率为3.6%,与o1-mini和GPT-4o相比略高。
准备框架评估涵盖了网络安(an)全、CBRN(化学、生物、放(fang)射性、核)、说(shuo)服(fu)力(li)、模(mo)型自主性四个(ge)风险类别。o3-mini在(zai)网络安(an)全方面(mian)被评为“低风险”,在(zai)CBRN、说(shuo)服(fu)力(li)、模(mo)型自主性方面(mian)被评为“中等风险”,在(zai)生物威胁创建(jian)方面(mian)的表现达到了“中等风险”阈值,但在(zai)核和放(fang)射性武器发展方面(mian)的能力(li)有限。
按其评级,只有缓(huan)解后得分为“中(zhong)等”或(huo)以(yi)(yi)下的模型才可(ke)以(yi)(yi)部署(shu),得分“高等”或(huo)以(yi)(yi)下的模型才可(ke)以(yi)(yi)进一步开发。
三、o3基准测试成本或超3000万美元,OpenAI正谈判2900亿元新融资
自去年9月发布o1以来,OpenAI一直(zhi)在迭(die)代(dai)其(qi)推理模(mo)(mo)型,去年年底发布的o3模(mo)(mo)型是(shi)其(qi)最新一代(dai)AI推理模(mo)(mo)型。
高(gao)端版o3模型针(zhen)对高(gao)计算应用,而o3-mini迎合(he)了需要兼顾经济高(gao)效(xiao)的用户需求。这(zhei)反映了OpenAI试图平衡可访问(wen)性和高(gao)级付费(fei)产(chan)品的策略。
这两(liang)天也不知道是(shi)被DeepSeek逼(bi)急了(le),还是(shi)为了(le)给o3-mini预热,OpenAI联合创始人(ren)(ren)兼(jian)CEO萨(sa)姆(mu)·阿(a)尔特曼(man)在(zai)社交平(ping)台(tai)上(shang)非常活跃,又(you)是(shi)夸DeepSeek R1令人(ren)(ren)印象(xiang)深(shen)刻,又(you)说OpenAI将提供(gong)更好的模型,又(you)强调更多计算很重(zhong)要(yao)。
昨天他还大张旗鼓地宣布第一个完整8机架GB200 NVL72服务器正在微软Azure为OpenAI运行。
印度政府本周五发布的《2024-2025经济调查》报告显示,OpenAI可能已经花费超过3000万美元来对(dui)其(qi)最新AI推理模型o3进行基准测试(shi)。
该报告写道,OpenAI o3模型处理能力的突破付出了非常高的代价。ARC-AGI基准测试被认为是最具挑战性的AI任务之一,OpenAI的低效配置模型导致了20万美元的成本。高效模型的成本更是高达低效模型的172倍,也就是大约3440万美元。
阿尔特曼(man)前几(ji)天还晒出(chu)和微(wei)(wei)软董事长(zhang)兼(jian)CEO萨(sa)提(ti)亚·纳德拉的(de)合照,说(shuo)微(wei)(wei)软和OpenAI合作的(de)下(xia)一阶段将会比任何人想象的(de)都要好得多(duo)。
不过微软作为OpenAI最大投资者的(de)名号(hao),可能要被日本软银集团夺走。
近期软银集团(tuan)创始人兼CEO孙正义与阿尔(er)特曼(man)往(wang)来愈发密切(qie),上周宣布联手(shou)成立(li)AI巨(ju)型(xing)项目“星际之门(Stargate)”,未来四年投资5000亿美(mei)元(约合(he)人民币3.6万亿元)建设AI基础设施,昨天又(you)被外媒曝出将成为OpenAI新(xin)一轮巨(ju)额(e)融资的(de)领投方。
据外媒报道,OpenAI正在进行初步谈判,计划在一轮融资中筹集至多400亿美元(约合人民币2901亿元),估值将达到3000亿美元(约合人民币2.18万亿元)。日本软银集团将领投此轮融资,正在商谈投资150亿至250亿美元,剩余资金将来(lai)自其(qi)他投资者。
加上之前软银承诺向“星际之门”投资的逾150亿美元,最终软银可能会在与OpenAI的合作上投入超过400亿美元。这将成为(wei)软银迄(qi)今(jin)最大的投(tou)资之一。
结语:狂卷性价比,高质AI推理模型走向普及
此前马斯(si)克等(deng)科技大佬已经公开质疑过如何承担建造“星际(ji)之门”的巨额成(cheng)本(ben)。在DeepSeek高性能低成(cheng)本(ben)开源模型的影响下,美国(guo)AI产业(ye)界和(he)华尔街(jie)投资者(zhe)对OpenAI等(deng)其他美国(guo)AI开发商的大手(shou)笔支出策略更是疑窦丛生。
OpenAI最新推出的(de)o3-mini,也(ye)被视作抵御DeepSeek模型冲(chong)击的(de)最新举措,令业(ye)界(jie)尤其关(guan)注。
在(zai)新闻稿中,OpenAI称o3-mini的发布标志着该公司向(xiang)突破(po)高性价(jia)比(bi)智(zhi)能(neng)(neng)界(jie)限的使(shi)命又迈进了一步,让高质量(liang)的AI更(geng)加触手可及,OpenAI致力(li)于(yu)走在(zai)前(qian)沿,构建能(neng)(neng)够(gou)平(ping)衡智(zhi)能(neng)(neng)、效率和安全性的大规模(mo)模(mo)型。