智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西(xi)3月25日报道,昨天,阿(a)里云通义千问开(kai)源(yuan)更(geng)小尺寸的视(shi)觉理解模型Qwen2.5-VL-32B-Instruct。与昨夜的发(fa)布时间(jian)几乎前后脚(jiao)。

Qwen2.5-VL-32B-Instruct的(de)优(you)势(shi)主要集中(zhong)于三(san)个方面:研(yan)究人员调整(zheng)了输(shu)出(chu)风格(ge),使(shi)其回答详细(xi)、格(ge)式规范且(qie)更符合人类偏好;在(zai)数学推理能力(li)方面,可应对复杂(za)数学问题;在(zai)图像(xiang)解析、内容(rong)识别、视觉逻辑推导等任务(wu)中(zhong)更准确并具(ju)备细(xi)粒度分析能力(li)。

该模型(xing)是在(zai)1月底开(kai)源的(de)视觉模型(xing)Qwen2.5-VL系列(lie)的(de)基础上,研(yan)究人(ren)员基于(yu)强(qiang)化学习(xi)持续优化的(de)模型(xing),新模型(xing)使(shi)用Apache 2.0协议开(kai)源。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

科技博主(zhu)Simon Willison在博客中提到,32B参数正迅速成为其最喜欢的模型大(da)小,既(ji)能达到可媲美GPT-4级别的能力,又小到可以在其64GB内(nei)存的Mac上使用,并且仍(reng)有(you)足够的RAM来运行其他如火狐浏览器(Firefox)和软件开发工具(ju)Visual Studio Code等内(nei)存占用较(jiao)大(da)的应用程序。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

GitHub地址://github.com/QwenLM/Qwen2.5-VL

Hugging Face地址://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

一、一张图就能输出地理特征、地形地貌,几何难题也能胜任

Simon Willison尝试了(le)(le)Qwen2.5-VL-32B-Instruct的图(tu)片理(li)解能力,他上(shang)传了(le)(le)一张图(tu)片让模(mo)型识别。Qwen2.5-VL-32B-Instruct给(ji)出了(le)(le)图(tu)片中包含的地理(li)特征(zheng)、分颜(yan)色区域、深度等值线、保(bao)护区等诸多要(yao)素。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

官方博(bo)客中展示(shi)了(le)Qwen2.5-VL-32B-Instruct在细(xi)粒度图像理解和数(shu)学(xue)推(tui)理方面的实(shi)际表现(xian)。

第一个提示词是:“我开着大货车在这条路上行驶,现在已经12点了,我能在13点之前到达110公里以外的地方吗?”模型需要在理解用户需求(qiu)的(de)基础上,补充图片(pian)上对车辆限速的(de)背景信息再得出结论。

可以看到,Qwen2.5-VL-32B-Instruct先(xian)将(jiang)题目(mu)和图片中的信息(xi)进行了汇(hui)总,然后(hou)进行逐步分析解答(da)。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

第二个问题是数学推理,提示词为:“如图所示,直线AB和CD在O点相交,OD平分∠AOE,∠BOC=50.0,然后∠EOB=()”这(zhei)道(dao)题(ti)重点(dian)考察的是模型(xing)够准(zhun)确理解几何图(tu)形的基本概念,以(yi)及相关角之间(jian)的位置关系,如对(dui)顶角、角平(ping)分(fen)线等概念在(zai)图(tu)形中的体现。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

第三个提示词是:“侏罗纪蜘蛛网是一种非常有规律的蜘蛛网,如图,它是由无数个正方形环绕而成的,且最外边第一个正方形A_{1}B_{1}C_{1}D_{1}的面积为a_{1}=1,分别取正方形A_{1}B_{1}C_{1}D_{1}各边的三等分点A_{2},B_{2},C_{2},D_{2},作第二个正方形A_{2}B_{2}C_{2}D_{2},且正方形A_{2}B_{2}C_{2}D_{2}的面积为a_{2},\ldots \ldots ,依次类推,第n个正方形A_{n}B_{n}C_{n}D_{n}的面积为a_{n}. $求{a_{n}}的通项公式”

这道(dao)题综合考查了几何(he)图形(xing)分(fen)析、归(gui)纳推理(li)、数学(xue)运算以及数列知(zhi)识运用(yong)等多(duo)方面的能力(li)。在Qwen2.5-VL-32B-Instruct的解题过(guo)程(cheng)中,其(qi)首(shou)先罗(luo)列了解题文章(zhang)的基(ji)本思(si)路,然后进(jin)行分(fen)步(bu)骤解答(da)。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

最后一个(ge)是(shi)对精细图片(pian)的理解,Qwen2.5-VL-32B-Instruct通过图片(pian)中的锅(guo)底、分格设计、配(pei)菜、氛围等识别出(chu)这是(shi)四川麻辣火锅(guo),并附上了(le)简介。在用户(hu)询问这为什(shen)么是(shi)四川火锅(guo)时,其对上述关键要素(su)进行了(le)详细引用给出(chu)答案。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

二、多项测试超过72B前代模型,纯文本能力整体优于GPT-4o mini

多(duo)项基准测试(shi)中(zhong),Qwen2.5-VL-32B-Instruct的(de)(de)表现(xian)超过了Mistral-Small-3.1-24B和Gemma-3-27B-IT,以及(ji)参数规模更大的(de)(de)Qwen2-VL-72B-Instruct模型。

在强调复(fu)杂任务多(duo)步骤推理(li)的MMMU、MMMU-Pro和(he)MathVista中,Qwen2.5-VL-32B-Instruct表现优于Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。

同时,注重主观(guan)用户(hu)体验评估(gu)的MM-MT-Bench基准测试中,该模(mo)型相较于其前代Qwen2-VL-72B-Instruct表现更好。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

纯文本(ben)能力方面(mian),Qwen2.5-VL-32B-Instruct是同规模模型中整体表现最(zui)好的。

通义开源32B视觉模型,阿里与DeepSeek前后脚上新!能看图说话

结语:下一步将聚焦长且有效的视觉推理

相比于(yu)(yu)Qwen2.5-VL系列模型,基于(yu)(yu)快思考(kao)模式,Qwen2.5-VL-32B在强(qiang)化学习框架(jia)下(xia)优(you)化了(le)主(zhu)观体验和数(shu)学推理能力。

阿里(li)云通义(yi)千(qian)问的(de)研究团队(dui)下一步研究将聚焦(jiao)于长且有效的(de)推理(li)过程,以突(tu)破视觉(jue)模型在处理(li)高度复(fu)杂、多步骤视觉(jue)推理(li)任务(wu)中(zhong)的(de)边界。