智东西AI前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影

智东西AI前瞻7月29日报道,今日,豆包App宣布“视觉推理能力”全面升级,正式上线图像分析的深度思考模式

用户只需拍摄或上传一张图片,即可在“深度思考”模式下使用放大、裁剪、图搜等功能,结合边看图边发问的交互方式(shi),实(shi)现更高(gao)精(jing)度的图片语(yu)义理(li)解和(he)推理(li)能力。

这一升级不仅支持识别图中(zhong)物体(ti),更(geng)进一步延伸到对(dui)图像背后场景的(de)理解判断。

一、拍图就能提问,豆包开启“边看图边思考”新交互

在本次升级中(zhong),豆包新增(zeng)的(de)“深度思考(kao)”模式(shi),支(zhi)持用户围绕图片本身进行自由(you)提问。

无论是拍摄街景、上传老照片,还是记录物件,都可以直接向豆包提出“这是什么”“在哪里”“属于哪个年代”等问题,系统会结合图像内容进行推理分析,给出解释

功能入口已(yi)集成(cheng)在(zai)豆包App对话界面中(zhong),用(yong)户选择“深度思考”,上传(chuan)图片后即可触(chu)发分析流程。

“以图搜图”模式下,豆包还可自动激活图像放大、裁剪、图片搜索等工(gong)具,帮助用户(hu)进一步观察(cha)细节,提升问(wen)答准(zhun)确性(xing)。

二、一次完整旅行对话:豆包从“在哪”到“带啥相机”都能帮你安排

这次体验(yan)中,智东(dong)西模拟了一次“从照片出发(fa)规划旅行”的(de)完整(zheng)对(dui)话流程。

1、上传街拍图,豆包识别出“你在哪”

第一步(bu),智东西上传(chuan)了一张街头照片,并询问“我在哪?”。

豆包学会看图思考了,一张图就能帮你规划暑假出行

豆包在未提供任(ren)何位置信息的情(qing)况下,识别出画面(mian)为“上海的武康大楼附近”,并补充说明其为“上海具有(you)代表性的历史建筑,也是(shi)网红打卡地”。

进一步追问“这幅图是不是照骗”“暑假适合去吗”,豆包的回答也较为全面:指出照片中建筑外观与实景一致,但构图和光线可能增强了美感;同时给出天气(qi)、人流、交(jiao)通等方面(mian)的旅(lv)游建议,提醒(xing)避高温、错(cuo)峰出行、准备防(fang)暑物(wu)品等,具有实(shi)际(ji)参考意义。

豆包学会看图思考了,一张图就能帮你规划暑假出行

2、上传江南街景图,豆包识别景点,并生成2天1夜旅行攻略

接着,智(zhi)东西(xi)上传了一张江(jiang)南水乡风(feng)格的街景图(tu),想(xiang)让(rang)豆包生成“换场”的旅游攻略。

豆包学会看图思考了,一张图就能帮你规划暑假出行

豆包识别出这是(shi)“苏州(zhou)平江历史文(wen)化街区(平江路)”,并描述其(qi)(qi)“河道蜿蜒、白墙黛瓦、摇橹(lu)船穿(chuan)行(xing)其(qi)(qi)间”的场景特(te)征。

随后提(ti)出“我想同(tong)时去这两个地(di)方,如何安排(pai)行(xing)程?”的(de)问题后,豆包生成了一份详尽(jin)的(de)“武康(kang)大楼+平江路(lu)2天(tian)1夜”旅(lv)行(xing)攻略。

内容覆盖每日路线、跨城交通、拍照点位、文艺店铺、餐馆推荐、防暑提醒等细节,结构清晰,实用性(xing)强。

豆包学会看图思考了,一张图就能帮你规划暑假出行

整体来看,豆(dou)包在“图片分析”模式下,具备(bei)地点识别能(neng)力,还(hai)能(neng)基于多(duo)个目(mu)标(biao)地点,串联生成完整的旅(lv)行计划,展(zhan)现出较强的上下文(wen)理解与推理能(neng)力。

3、拍CCD摊位,豆包识别型号并推荐适合“出片”的机型

在确定了行程后,智东西又上传了一张(zhang)街边(bian)复古(gu)相机摊(tan)的图,想让豆包推荐适合拍照的机型(xing)。

豆包学会看图思考了,一张图就能帮你规划暑假出行

豆包迅速(su)识(shi)别(bie)(bie)出图(tu)中主要为“胶片傻瓜机(ji)”“旁(pang)轴相(xiang)机(ji)”等类型(xing),并准确指出Olympus μ2、Canon Autoboy D5、Leica CM等具体型(xing)号,细节识(shi)别(bie)(bie)能力表现(xian)较为扎(zha)实。

此后,围绕“如何选出片效果好的相机”的问题,豆包还提供了分层级的购机建议,包括新手入门、进阶玩家的不同选择,并对操作难度、风格偏好、预算区间等做出说明。

它还(hai)特别(bie)提示(shi)了(le)购买二手(shou)机时需(xu)检查快门(men)、镜头等细(xi)节,并(bing)估算了(le)拍摄(she)和冲洗胶片的实际成(cheng)本。

豆包学会看图思考了,一张图就能帮你规划暑假出行

在这类物(wu)品(pin)识别与使用建(jian)议任务中,豆包已初步具备“看图-识别-建(jian)议”闭环能力,尤其适(shi)用于旅(lv)游(you)类消(xiao)费决策场景。

三、冷门景点识别挑战:这回豆包也拿不准

为测(ce)试在“非热门(men)地标+自然景观”条(tiao)件下的(de)表现,智东西还上传了一(yi)张南京止马岭的(de)实拍照片(pian)。

豆包学会看图思考了,一张图就能帮你规划暑假出行

这张(zhang)图没有明显(xian)的(de)地标建筑或(huo)文字提示,视觉(jue)线索相对稀(xi)少(shao)。豆包未能识别(bie)出“止(zhi)马岭”这一具体(ti)地点,但结(jie)合杉(shan)树的(de)外(wai)形特征、水中生长环境以(yi)及秋季色彩,判断(duan)其为“池杉(shan)或(huo)水杉(shan)湿地景观”。

调(diao)用10篇资(zi)料后(hou),豆包推(tui)测可(ke)能(neng)拍摄于“成都(dou)白鹭(lu)湾湿地公园”,并(bing)在(zai)(zai)参考结(jie)果中提及“常州翠竹(zhu)公园”“南京止(zhi)马岭(ling)”等相似景点——虽未命中,但说明其在(zai)(zai)模糊场景下(xia)具(ju)备(bei)一定(ding)类比(bi)和搜索整合能(neng)力。

豆包学会看图思考了,一张图就能帮你规划暑假出行

不过,从整体判断来看,豆包对于这类非网红、无标识的自然景观,其定位准确性仍有限。

结语:视觉能力升级,让图片成为“主动提问入口”

通过此次(ci)体验可以看到,豆包(bao)在视(shi)觉推(tui)理(li)能力升(sheng)级后,已不再局限于(yu)“看图(tu)识物”,而是围绕(rao)图(tu)片内(nei)容(rong)展开多轮对话式(shi)分析,支(zhi)持(chi)定位、推(tui)荐(jian)、规划、选品等复杂需求(qiu)。

无论是(shi)上传旅游照片(pian)判断城市(shi)位置、分(fen)析(xi)图中场景是(shi)否值得游览,还(hai)是(shi)识别老物件类型并给(ji)出购买建议,豆包均(jun)展示出清晰的(de)答案(an)与解释。

对于用户而(er)言,这种“边看(kan)图(tu)边问(wen)图(tu)”的(de)交互方式(shi),不再要求精准描述(shu),而(er)是让图(tu)像本身成为入口,推(tui)动AI推(tui)理主动向前走一步。

虽然在部分冷门场景下还存(cun)在判断(duan)不准、搜(sou)索(suo)依赖重的(de)问题,但豆包在图片分析中(zhong)的(de)表现已(yi)初(chu)步(bu)具备“能看图、敢(gan)思考、会回答(da)”的(de)雏形,未来或将向更深入的(de)图像(xiang)语义理解能力演(yan)进。