智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 李水青
阿(a)里的(de)“超大杯”思考模型,终(zhong)于现身了!
智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的(de)早期(qi)预(yu)览版(ban)。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标(biao)赛)等具有挑战性的推理基准测试中,达到100%的准确率。

不(bu)过,这(zhei)一模型其实已经在通(tong)义千问负责人林俊(jun)旸(yang)的(de)个人社交媒体(ti)账号上获(huo)得了“超前点映(ying)”:在11月2日(ri)的(de)23点54分(fen),林俊(jun)旸(yang)便发(fa)文“它来了,你们可以试(shi)试(shi)”,配图是开启思考模式(shi)的(de)Qwen3-Max。

Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,更多版本将会推出。
用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面(mian)都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API调用:
//modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值(zhi)得注意的是(shi),Qwen3-Max-Thinking早(zao)期预览版仅支持(chi)文(wen)本(ben)(ben)到(dao)文(wen)本(ben)(ben)这一(yi)模态,并选择(ze)以输出“限(xian)时(shi)免费”的模式对外提(ti)供API服务。

我们在体验(yan)中发(fa)现,Qwen3-Max-Thinking早期预览(lan)版的确挺费(fei)token的,如(ru)果不是(shi)限时免费(fei)输出的话,使用成本(ben)或许(xu)会较为高昂。
不过,该问题(ti)是可(ke)以用(yong)自(zi)带的思考预(yu)算控件(jian)解决的,用(yong)户可(ke)以在1024-81920个token的思考预(yu)算区间内随意切换(huan),直接控制模(mo)型的推(tui)理长度。

智东(dong)西在Qwen Chat中体(ti)验(yan)了Qwen3-Max-Thinking早期预览版(ban)的能力。要使(shi)用这一模(mo)(mo)型,用户需要在左(zuo)上方(fang)选择Qwen3-Max,并开(kai)启输入框(kuang)中的Thinking模(mo)(mo)式(shi)。

既然(ran)Qwen3-Max-Thinking早(zao)期(qi)预览版在AIME 2025上拿(na)下了满(man)分,我(wo)们便拿(na)这(zhei)场竞赛难(nan)度最高的压轴题,来考察(cha)该模型的数学推理能力。
可以看(kan)到(dao),Qwen3-Max-Thinking早期预览版在其(qi)思(si)考过程(cheng)反复输出了正确答案,不断验(yan)算,不断以新的方式解(jie)题(ti)目,甚至调用了代(dai)码解(jie)释器,从多种角度证明了其(qi)结果。

这一过程(cheng)耗时大概(gai)4-5分(fen)钟,不过确(que)实保(bao)证了答案的(de)完全正确(que)。将这一结(jie)果放到token计数器后,大致(zhi)计算(suan)出(chu)其对应的(de)token用量在1.2万(wan)(wan)-1.5万(wan)(wan)之间(jian)。

在(zai)智能体编(bian)程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相(xiang)同的任务——开(kai)发一(yi)个开(kai)源项目分享网(wang)站的HTML原型(xing)。
Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)能准确(que)分析用户需(xu)求(qiu)(qiu),输出所(suo)需(xu)的(de)网页(ye)。网页(ye)设计简(jian)洁清晰,也符(fu)合开源项目分享网站的(de)基(ji)本使用需(xu)求(qiu)(qiu),就是在样式和字体选择(ze)上略(lve)显粗糙(cao)。

对(dui)于其输(shu)出(chu)的网站(zhan)结(jie)果而言(yan),Qwen3-Max-Thinking早(zao)期预览版消耗的token数量明显偏多。反映(ying)到代码数量上,这一模型使用了(le)整(zheng)整(zheng)1417行代码完成了(le)任务。

开启深度推理的DeepSeek-V3.2生成了如下网页(ye)预览,代码(ma)源(yuan)文件中包含(han)787行代码(ma)。

在(zai)常识推理类(lei)任务上(shang),Qwen3-Max-Thinking早(zao)期预览版能很容易地绕开(kai)逻辑(ji)陷阱(jing)。

不过,平心而论,此类(lei)题目(mu)Qwen-3-Max也能(neng)轻松(song)解决,只需要几(ji)十(shi)个(ge)字。

已经(jing)有不少网(wang)友(you)用上了Qwen3-Max-Thinking早期预览版。有网(wang)友(you)反馈(kui),这一模型的(de)回复更(geng)为直(zhi)接、切(qie)中(zhong)要点,也更(geng)为“商务”,几乎避(bi)开(kai)了所有“人(ren)性(xing)化”的(de)情感。

也有网友在(zai)自己(ji)打(da)造的(de)(de)“randombench”基准测(ce)试上,考察了Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)(ban)的(de)(de)表现。Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)(ban)能解答高难度的(de)(de)推(tui)理问题,在(zai)这一(yi)基准测(ce)试上,此前只有GPT-5(思考模式)和(he)Grok 4达到了相(xiang)同的(de)(de)水准。

不过(guo),广大网友(you)们最关心(xin)的问题,或(huo)许还(hai)是:到底(di)啥时候上Hugging Face?

结语:Qwen3-Max系列模型,期待拉满
阿里的Qwen3-Max系列模型(xing)已(yi)经成为当前(qian)AI业内最广受期待的模型(xing)之(zhi)一,在社交媒体(ti)的评(ping)论区中,已(yi)有不少网友(you)开启催更模式。
今(jin)年9月(yue)5日,阿(a)里(li)上(shang)线(xian)Qwen3系列(lie)最强模型,这(zhei)也是阿(a)里(li)迄今(jin)为止最大的模型,参(can)数量超1万亿。
此番发布的Qwen3-Max-Thinking早期预览版在(zai)推理方面展现(xian)(xian)出(chu)强大的能力,其(qi)在(zai)数学竞赛上的满分(fen)表现(xian)(xian)就(jiu)是例证之一。在(zai)定位(wei)上,这或许就(jiu)是一款专为高难(nan)度推理而生(sheng)的模型,并(bing)不一定适用于所有(you)使用场景(jing)。目前阿(a)里(li)尚未放出(chu)完整(zheng)的基准测试结果,其(qi)整(zheng)体表现(xian)(xian)仍有(you)待观(guan)察。