智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影
智东西7月9日消息,今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。
Skywork-R1V 3.0在不到15秒(miao)的时(shi)间里,深入(ru)分析(xi)了下面(mian)这(zhei)道高(gao)考物理(li)选择题并给出正确答案。


从基准测试来看,Skywork-R1V 3.0在权威基准测试MMMU中的表现已经接近人类专家水平,并超过超过Claude-3.7-Sonnet 和GPT-4.5等闭源模型。
这一(yi)多模态推理(li)模型的(de)核心(xin)亮点可以用跨(kua)模态推理(li)、跨(kua)学科泛化两个关键词概括,既(ji)能(neng)(neng)解数学、物理(li)题(ti),还能(neng)(neng)完成地理(li)、历史(shi)、人(ren)文领域任务(wu),同时完成从(cong)文本到视(shi)觉(jue)的(de)推理(li)。
其作为昆(kun)仑万维(wei)多(duo)模(mo)态模(mo)型体系的(de)关键节点与(yu)核心(xin)基(ji)石,正是昆(kun)仑万维(wei)探索通用(yong)人工智(zhi)能迈出(chu)的(de)重要(yao)一步。
昆仑万维已全面(mian)开源(yuan)Skywork-R1V 3.0的所(suo)有资源(yuan)。
Hugging Face://huggingface.co/Skywork/Skywork-R1V3-38B
GitHub://github.com/SkyworkAI/Skywork-R1V
技术报告://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf
一、专业术语秒懂,还能结合图表对应分析,辅助诊断、看梗图样样全能
作为多(duo)模态推理(li)(li)(li)模型(xing),Skywork-R1V 3.0不仅可以胜任数学、物理(li)(li)(li)等(deng)(deng)传(chuan)统(tong)理(li)(li)(li)工科推理(li)(li)(li)任务,还能(neng)应(ying)对地理(li)(li)(li)、历史(shi)、人(ren)文、设计等(deng)(deng)跨(kua)学科任务。
话不(bu)多(duo)说(shuo),先(xian)来一睹Skywork-R1V 3.0在各(ge)项实(shi)操任务(wu)中的真(zhen)实(shi)水平(ping)。
第一(yi)大难关(guan)是(shi)解物理(li)、数学(xue)难题。可(ke)以看(kan)到下面的(de)物理(li)题目(mu)(mu)中,模型不仅需要(yao)对英(ying)文题目(mu)(mu)进行分析,还要(yao)识别“unit ramp”等(deng)专(zhuan)业术语(yu),并结(jie)合图表上给(ji)出的(de)信(xin)息(xi)进行解答(da),综合调用多项能力才能得(de)出答(da)案,值(zhi)得(de)一(yi)提的(de)是(shi),即使推理(li)链路很长,模型也没有丢失(shi)图表中的(de)关(guan)键信(xin)息(xi)。
题目:Consider applying a unit ramp voltage source to a series RL circuit as shown in <image 1>. Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;

Skywork-R1V 3.0识别出(chu)了图表中unit ramp代(dai)表线(xian)性上(shang)升的输(shu)入电(dian)压,调用(yong)物理公(gong)式等进(jin)行推(tui)导,并在得出(chu)结论后进(jin)行了反向推(tui)理验(yan)证,确认结果满(man)足电(dian)路平(ping)衡关系。

第二大难关(guan)(guan)是跨学科能(neng)力,从医学相关(guan)(guan)的实例(li)证明,Skywork-R1V 3.0能(neng)根据(ju)患者的医疗(liao)影像提取(qu)关(guan)(guan)键信息,辅助诊断。
题目:这位64岁的男性有20年的肝硬化病史,图像显示的是增强后的动脉期影像,最可能的诊断是?


多模态推理还有一大更为直观的应用场景,如逛(guang)博物馆等(deng),用户(hu)想要了解某一件展品需要专业解说、在(zai)网上(shang)查(cha)阅大量资料。
题目:请仔细观察下方图上的音乐家俑,并结合历史背景和视觉细节,使用中文回答以下问题:
1)图中这位女性音乐家在做什么?演奏的是什么乐器?
2)结合其服饰(如条纹长裙、高腰褶皱、双髻发髻)、妆容(白粉面庞、细眉等)及跪坐姿态,她可能属于哪个朝代,来自什么社会阶层或担任何种职能?
3)请联系“墓葬明器”的概念,分析为何墓主要将这些音乐家俑陪葬?

Skywork-R1V 3.0在(zai)看到下图中“音乐家俑”后,就可(ke)以快速给出(chu)他们在(zai)做什么(me)、术(shu)语(yu)说明朝(chao)代(dai)、来自什么(me)社会(hui)(hui)阶层、为(wei)什么(me)要陪(pei)葬等(deng)信(xin)息(xi)(xi)。这些内容需要模型细致分析图片(pian)上的隐藏信(xin)息(xi)(xi),并结合对特定历史(shi)朝(chao)代(dai)、社会(hui)(hui)制度的深入了解,才(cai)能(neng)得出(chu)正(zheng)确结论。

第三大难关(guan)是真实世界中的复杂推理(li)难题(ti)。用户日常(chang)生(sheng)活面对的场(chang)景往往都(dou)包含(han)多元化的复杂信息(xi),如(ru)对各(ge)地(di)地(di)理(li)特(te)征、人文等需要极度熟悉的“地(di)理(li)定位(wei)挑战(zhan)”,Skywork-R1V 3.0可以凭借下方图片的信息(xi),准(zhun)确给(ji)出其所处位(wei)置。
你正在参加一个地理定位挑战。根据提供的图像:
仔细分析图像中的线索(包括建筑风格、标识牌、植被、地形等);按照步骤思考这个地点最可能位于哪个大洲、国家以及城市,并说明原因;根据你的分析估计大致的纬度和经度。
请务必认真推理并给出证据, 你的最终答案中必须包含以下五行信息: continent: [大洲名称], country: [国家名称], city: [城市名称], lat: [小数形式的纬度], lng: [小数形式的经度]

从模型的分(fen)析过程(cheng)可以看出(chu),Skywork-R1V 3.0识(shi)(shi)别了图片(pian)中商铺的文字、建筑风格、地形、人流密(mi)度等(deng),综(zong)合调(diao)用了语言理解、空(kong)间(jian)记忆(yi)和(he)知识(shi)(shi)推理多个能(neng)力模块,最终锁定目标。

最后,Skywork-R1V 3.0还(hai)能理(li)解网络上的热梗,结合图片内容(rong)分析梗图中词语的双关含义给出解释。


二、多项评测表现超Claude、GPT,加速实现大模型学习最终目标
从基准测试结果来看,Skywork-R1V 3.0的表现也毫不逊色,已经在多个维度超过同类开源模型和主流闭源模型。

多(duo)学科基准测试中,Skywork-R1V 3.0表(biao)现(xian)逼(bi)近人类专家水(shui)平。
大规模(mo)(mo)多学科多模(mo)(mo)态(tai)理解和推理基准(zhun)测(ce)试MMMU中,Skywork-R1V 3.0的基准(zhun)测(ce)试成(cheng)绩为76.0分(fen),人类专(zhuan)家平均分(fen)数(shu)为76.2分(fen),其表现超过Claude-3.7-Sonnet 和GPT-4.5等闭(bi)源(yuan)模(mo)(mo)型(xing)。


视觉推理相关(guan)的EMMA-Mini(CoT)、中(zhong)小学(xue)知识点测评集MMK12中(zhong),该模型表现均超(chao)过规模参数更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源(yuan)模型。

尤其(qi)在物(wu)理(li)(li)和逻辑推(tui)理(li)(li)领域,Skywork-R1V 3.0相(xiang)比于上一代(dai)模(mo)型性(xing)能显著提升(sheng)。多模(mo)态大模(mo)型物(wu)理(li)(li)推(tui)理(li)(li)能力(li)测试(shi)PhyX、数学能力(li)数据(ju)集(ji)MMK12中,其(qi)均超过Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流闭源模(mo)型,Qwen 2.5等开源模(mo)型。
在理(li)解物(wu)理(li)基础概念和(he)图文结合(he)的复杂物(wu)理(li)问(wen)题方面,该(gai)模(mo)型在多(duo)模(mo)态大模(mo)型物(wu)理(li)推理(li)能力测试集(ji)PhyX-MC-Text-Minimal和(he)SeePhys,表现超谷(gu)歌、OpenAI旗下模(mo)型。


综(zong)合(he)来看(kan),Skywork-R1V 3.0已经基(ji)于文本推理迁移融合(he)视(shi)觉(jue)推理,实现跨(kua)(kua)模态推理、跨(kua)(kua)学(xue)(xue)科泛化,而这(zhei)正是昆仑(lun)万维加速实现大模型(xing)表征学(xue)(xue)习(xi)最终目标的关键一(yi)步。
当下关(guan)于(yu)AI表(biao)征有(you)一(yi)大讨(tao)论(lun),人类观测到的(de)(de)图像、文本等(deng)(deng)多模态数(shu)据是(shi)(shi)同一(yi)客观真实Z的(de)(de)不同投射(she),而大模型表(biao)征学习目(mu)标,就是(shi)(shi)逼近对“Z”的(de)(de)统一(yi)、深层理解(jie)。昆仑万维Skywork-R1V研发团队通过一(yi)个(ge)简单的(de)(de)例子进(jin)行了说明,以我们看到“苹果”为例,其包含颜色、形状视(shi)觉投影(ying),光(guang)滑(hua)度(du)、重量等(deng)(deng)触觉投影(ying),甜(tian)、酸等(deng)(deng)味(wei)(wei)觉投影(ying),综(zong)合所(suo)有(you)模态数(shu)据,才能帮助(zhu)用户(hu)理解(jie)“苹果”的(de)(de)整体概念,而不是(shi)(shi)仅停留在单一(yi)的(de)(de)“视(shi)觉”或“味(wei)(wei)觉”认知(zhi)上。
在此基(ji)础上,模(mo)型对(dui)于多(duo)模(mo)态信(xin)息的(de)深入(ru)理解(jie)、推(tui)理就至关重要(yao),其对(dui)于模(mo)型完整(zheng)理解(jie)客(ke)观世界的(de)关键作用也不言而(er)喻。
三、冷启动+GRPO强化学习,低成本、高效率激发推理潜能
与此同时,突破模(mo)型在(zai)单一(yi)维度的局限(xian)性,构建更全(quan)面、更贴近(jin)人类(lei)认知推理过程(cheng)的多模(mo)态推理模(mo)型,也对昆仑万维的研(yan)究团(tuan)队提出了更大挑战。
昆仑万维Skywork-R1V研发团队提到,Skywork-R1V 3.0在跨模态推理、跨学科泛化能力提升的背后有两大关键,一是其跨模态融合机制更加精巧、有效,二是依靠强化学习方法实现了泛化推理能力媲美甚至超越部分闭源巨型模型。
具体来看,昆仑万(wan)维研发(fa)团(tuan)队在强(qiang)化学(xue)习GRPO策略、关(guan)键熵驱(qu)动(dong)的模(mo)型判别机(ji)制、连接器(qi)微调与多学(xue)科知(zhi)识矫正的综合作(zuo)用下,实现了模(mo)型推(tui)理(li)性(xing)能、推(tui)理(li)效率的双重(zhong)提升。
Skywork-R1V 3.0基于其(qi)上(shang)一代模型Skywork-R1V 2.0蒸馏数据(ju)进(jin)行“冷启动”,随后(hou)引入(ru)强化学习算法(fa)GRPO深(shen)度激发模型的推理(li)潜(qian)能,实现推理(li)能力在图像(xiang)和(he)文本模态(tai)之间的迁移,提(ti)升(sheng)其(qi)跨模态(tai)、多学科场(chang)景下的理(li)解与分析(xi)表现。最后(hou),其(qi)通(tong)过(guo)约1.2万(wan)条监督(du)微调样本和(he)1.3万(wan)条强化学习样本就(jiu)进(jin)行了训练。

为了(le)增强(qiang)模型(xing)推理能力的(de)泛化(hua)(hua)性(xing),研究人(ren)员采用了(le)关(guan)键熵驱动的(de)模型(xing)判别机制,通过监测模型(xing)在进入推理关(guan)键节(jie)点(dian)(例如“Wait…”、“Alternatively…”)时输出熵的(de)变化(hua)(hua)。
这背后的(de)考(kao)量在于,研究(jiu)人员(yuan)发现具备(bei)推(tui)(tui)理(li)能力(li)的(de)模(mo)型(xing)会在这些(xie)位(wei)置(zhi)输出更高不(bu)确定(ding)性(xing),仅模(mo)仿推(tui)(tui)理(li)语(yu)气(qi)的(de)模(mo)型(xing)则输出低熵、确定(ding)性(xing)内(nei)容(rong),基(ji)于此其(qi)提出确定(ding)性(xing)检查点,筛选(xuan)出了具备(bei)推(tui)(tui)理(li)能力(li)的(de)权(quan)重版(ban)本。
Skywork-R1V 3.0的能力层层深入(ru),其通过基于1万条(tiao)高质量、多学科、多模态(tai)样本对连(lian)接器定(ding)向再训练,优(you)化不同(tong)领域知(zhi)识的融合,具备了跨学科推理能力。
与此(ci)同时,昆仑(lun)万(wan)维还针对(dui)跨模(mo)态(tai)连接器进行专门精细(xi)微调(diao),使(shi)视觉(jue)(jue)模(mo)态(tai)提供的细(xi)节信息(xi)能够在整个推理链条中(zhong)持(chi)(chi)续(xu)保持(chi)(chi)清晰且(qie)稳定(ding)的贡献,保证保持(chi)(chi)了Skywork-R1V 3.0在深度推理场景下视觉(jue)(jue)感知的准确性(xing)和稳定(ding)性(xing),以应(ying)对(dui)多模(mo)态(tai)模(mo)型推理链条过长时,视觉(jue)(jue)信息(xi)被(bei)淡化出(chu)现(xian)幻觉(jue)(jue)的风(feng)险。
不同于从头大规模预(yu)训(xun)练增强(qiang)多(duo)模态推理(li)能力(li)的(de)技术路线,昆仑万维(wei)将重(zhong)点放(fang)到了模型的(de)后训(xun)练阶段,其通过精巧的(de)强(qiang)化学习策略以低成本(ben)激(ji)发模型本(ben)身潜在的(de)推理(li)能力(li),实现性(xing)能飞跃。研发团队提到(dao),后(hou)训练(lian)阶(jie)段的强化学习(xi)可(ke)(ke)以针对(dui)性地激活和(he)深化大规(gui)模(mo)预(yu)训练(lian)的潜(qian)在能(neng)力(li),同时这种小(xiao)规(gui)模(mo)、高(gao)质量数据驱(qu)动的强化学习(xi)更经济(ji)高(gao)效,可(ke)(ke)更适合快速迭(die)代并精准地调控模(mo)型能(neng)力(li)。
Skywork-R1V 3.0正是(shi)昆(kun)仑万维在探索AGI过(guo)程(cheng)中,提出的一(yi)条更低成本、更高(gao)效率(lv)地激(ji)发多模态模型推理潜能的有效路径(jing)。
结语:以推理能力为主线,挖掘多模态模型应用潜力
多(duo)模(mo)(mo)态推理模(mo)(mo)型(xing)的应用潜力显现,其(qi)可(ke)以同时接收(shou)文本、图像、音(yin)频等(deng)多(duo)种模(mo)(mo)态输入,并将(jiang)其(qi)转化为统(tong)一的语义表示,能挖掘(jue)不同模(mo)(mo)态数据间的潜在联系,结合(he)多(duo)源信息(xi)进行(xing)动(dong)态决(jue)策等(deng),都使其(qi)成为当下(xia)AI行(xing)业探(tan)索通用人(ren)工智(zhi)能的一个关键(jian)里程(cheng)碑。
率先看到这一技术发展趋(qu)势的(de)昆仑万维,自2025年(nian)起就已经陆(lu)续开源涵盖推理、奖励模(mo)型(xing)(xing)、SWE、空(kong)间(jian)智能、视(shi)频生成等(deng)多个SOTA模(mo)型(xing)(xing),到最(zui)新的(de)R1V 3.0,如今(jin)其围绕着(zhe)多模(mo)态模(mo)型(xing)(xing)推理的(de)技术体系已经成型(xing)(xing),其技术探索正通过开源开放(fang)的(de)策略进一步加速(su)AI理解复(fu)杂人类(lei)意图、实现应用(yong)的(de)规模(mo)化落地。
