刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

智东西（公众号：zhidxcom）
作者 | 陈骏达
编辑 | 李水青

阿(a)里的(de)“超大杯”思考模型，终(zhong)于现身了！

智东西11月4日报道，刚刚，阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的(de)早期(qi)预(yu)览版(ban)。尽管这一模型只是一个训练的中间检查点，但它已借助工具使用和测试时计算，在AIME 2025和HMMT（哈佛-MIT数学锦标(biao)赛）等具有挑战性的推理基准测试中，达到100%的准确率。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

不(bu)过，这(zhei)一模型其实已经在通(tong)义千问负责人林俊(jun)旸(yang)的(de)个人社交媒体(ti)账号上获(huo)得了“超前点映(ying)”：在11月2日(ri)的(de)23点54分(fen)，林俊(jun)旸(yang)便发(fa)文“它来了，你们可以试(shi)试(shi)”，配图是开启思考模式(shi)的(de)Qwen3-Max。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

Qwen团队并未透露Qwen3-Max-Thinking早期预览版的更多信息，模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称，随着训练的继续，更多版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍，Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合，在思考模式下，模型在智能体编程、常识推理，以及数学、科学和通用领域的推理能力等方面(mian)都有显著提升。

体验链接：

chat.qwen.ai/?thinking=true

API调用：

//modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值(zhi)得注意的是(shi)，Qwen3-Max-Thinking早(zao)期预览版仅支持(chi)文(wen)本(ben)(ben)到(dao)文(wen)本(ben)(ben)这一(yi)模态，并选择(ze)以输出“限(xian)时(shi)免费”的模式对外提(ti)供API服务。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

我们在体验(yan)中发(fa)现，Qwen3-Max-Thinking早期预览(lan)版的确挺费(fei)token的，如(ru)果不是(shi)限时免费(fei)输出的话，使用成本(ben)或许(xu)会较为高昂。

不过，该问题(ti)是可(ke)以用(yong)自(zi)带的思考预(yu)算控件(jian)解决的，用(yong)户可(ke)以在1024-81920个token的思考预(yu)算区间内随意切换(huan)，直接控制模(mo)型的推(tui)理长度。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

智东(dong)西在Qwen Chat中体(ti)验(yan)了Qwen3-Max-Thinking早期预览版(ban)的能力。要使(shi)用这一模(mo)(mo)型，用户需要在左(zuo)上方(fang)选择Qwen3-Max，并开(kai)启输入框(kuang)中的Thinking模(mo)(mo)式(shi)。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

既然(ran)Qwen3-Max-Thinking早(zao)期(qi)预览版在AIME 2025上拿(na)下了满(man)分，我(wo)们便拿(na)这(zhei)场竞赛难(nan)度最高的压轴题，来考察(cha)该模型的数学推理能力。

可以看(kan)到(dao)，Qwen3-Max-Thinking早期预览版在其(qi)思(si)考过程(cheng)反复输出了正确答案，不断验(yan)算，不断以新的方式解(jie)题(ti)目，甚至调用了代(dai)码解(jie)释器，从多种角度证明了其(qi)结果。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

这一过程(cheng)耗时大概(gai)4-5分(fen)钟，不过确(que)实保(bao)证了答案的(de)完全正确(que)。将这一结(jie)果放到token计数器后，大致(zhi)计算(suan)出(chu)其对应的(de)token用量在1.2万(wan)(wan)-1.5万(wan)(wan)之间(jian)。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

在(zai)智能体编(bian)程任务上，我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相(xiang)同的任务——开(kai)发一(yi)个开(kai)源项目分享网(wang)站的HTML原型(xing)。

Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)能准确(que)分析用户需(xu)求(qiu)(qiu)，输出所(suo)需(xu)的(de)网页(ye)。网页(ye)设计简(jian)洁清晰，也符(fu)合开源项目分享网站的(de)基(ji)本使用需(xu)求(qiu)(qiu)，就是在样式和字体选择(ze)上略(lve)显粗糙(cao)。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

对(dui)于其输(shu)出(chu)的网站(zhan)结(jie)果而言(yan)，Qwen3-Max-Thinking早(zao)期预览版消耗的token数量明显偏多。反映(ying)到代码数量上，这一模型使用了(le)整(zheng)整(zheng)1417行代码完成了(le)任务。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

开启深度推理的DeepSeek-V3.2生成了如下网页(ye)预览，代码(ma)源(yuan)文件中包含(han)787行代码(ma)。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

在(zai)常识推理类(lei)任务上(shang)，Qwen3-Max-Thinking早(zao)期预览版能很容易地绕开(kai)逻辑(ji)陷阱(jing)。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

不过，平心而论，此类(lei)题目(mu)Qwen-3-Max也能(neng)轻松(song)解决，只需要几(ji)十(shi)个(ge)字。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

已经(jing)有不少网(wang)友(you)用上了Qwen3-Max-Thinking早期预览版。有网(wang)友(you)反馈(kui)，这一模型的(de)回复更(geng)为直(zhi)接、切(qie)中(zhong)要点，也更(geng)为“商务”，几乎避(bi)开(kai)了所有“人(ren)性(xing)化”的(de)情感。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

也有网友在(zai)自己(ji)打(da)造的(de)(de)“randombench”基准测(ce)试上，考察了Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)(ban)的(de)(de)表现。Qwen3-Max-Thinking早期预(yu)览(lan)版(ban)(ban)能解答高难度的(de)(de)推(tui)理问题，在(zai)这一(yi)基准测(ce)试上，此前只有GPT-5（思考模式）和(he)Grok 4达到了相(xiang)同的(de)(de)水准。

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

不过(guo)，广大网友(you)们最关心(xin)的问题，或(huo)许还(hai)是：到底(di)啥时候上Hugging Face？

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

结语：Qwen3-Max系列模型，期待拉满

阿里的Qwen3-Max系列模型(xing)已(yi)经成为当前(qian)AI业内最广受期待的模型(xing)之(zhi)一，在社交媒体(ti)的评(ping)论区中，已(yi)有不少网友(you)开启催更模式。

今(jin)年9月(yue)5日，阿(a)里(li)上(shang)线(xian)Qwen3系列(lie)最强模型，这(zhei)也是阿(a)里(li)迄今(jin)为止最大的模型，参(can)数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在(zai)推理方面展现(xian)(xian)出(chu)强大的能力，其(qi)在(zai)数学竞赛上的满分(fen)表现(xian)(xian)就(jiu)是例证之一。在(zai)定位(wei)上，这或许就(jiu)是一款专为高难(nan)度推理而生(sheng)的模型，并(bing)不一定适用于所有(you)使用场景(jing)。目前阿(a)里(li)尚未放出(chu)完整(zheng)的基准测试结果，其(qi)整(zheng)体表现(xian)(xian)仍有(you)待观(guan)察。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

结语：Qwen3-Max系列模型，期待拉满

相关推荐