智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 漠影

最近几天,支付宝App中悄然出现了一项新的AI应用——“探一下”。在“扫一(yi)(yi)扫”页面下方(fang)切换至“探一(yi)(yi)下”就能体验。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

与传统的识物、搜题等视觉搜索应用不同,“探一下”的核心亮点为探索。识图辨物只是开始,在此基础上,有探知识探灵感探文本等能力板块。

从视觉搜索到智能推荐信息,“探一下”可成为一本随身的“视觉百科全书”。逛展(zhan)时,打开(kai)“探一(yi)(yi)下”对准画作,背后的故(gu)事、历史背景、艺术风格(ge)都一(yi)(yi)览无余。踏青时,打开(kai)“探一(yi)(yi)下”对准花朵(duo),不仅能识(shi)别(bie)出名称、科属,还(hai)有(you)文化(hua)、园艺的相关知识(shi)。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

“探一下”也可以识别同款商品、给出药物使用指南,或是翻译外文菜单,并链接到支付宝丰富的商业生态,提供用车(che)、医疗等服务,使用场景很广(guang)泛。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

当切换至探灵感功能时,它可以根据场景灵活配文,可幽默、可治愈,在宠物、办公等场景(jing),还会有“读(du)心”、“卷王”等定制滤镜,适合(he)想(xiang)晒图但不知道怎么写文案(an)的人。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

这些实用、有趣的功能背后,其实是视觉搜索产品在GenAI(生成式AI)时代范式转变的缩影,告别过去的传统判别式方案,多模态大模型驱动的AI视觉搜索方案正逐渐(jian)走向规模(mo)化应用。

在海外,Google Lens这一爆款视觉搜索产品,已凭借GenAI成为谷歌增长最快的查询类型之一,每月视觉搜索调用量超200亿次。依托于扫一扫的用户群体、支付宝的庞大商业生态圈以及蚂蚁的技术积累,“探一下”会否成为国内对标乃至超越Google Lens的现象级产品呢?

一、视觉搜索赛道火热,理解分析能力亟待突破

过去20多年中,传统的文字搜索引擎已成为了搜索的标准形态。不过近几年来,原本作为文字搜索补充的视觉搜索已经逐渐走到台前。2022年,谷歌开发的视觉搜索应用Google Lens每月执行的视觉搜索任务已超过120亿次,2024年这一数字已达200亿次,并持续快速增长。

从用户角度来看,视觉搜索能提供超越文字限制的直观搜索体验,还能帮助用户发现更多相关信息,从而激发新的创意与灵感。在传统文字搜索增长进入稳定期后,视觉成为众多互联网科技企业发力的重点之一。

从商业价值的角度来看,视觉搜索能在电商、社交媒体等领域提供全新的体验,成为连接用户与商业服务的重要桥梁,催生(sheng)新的(de)商(shang)业模式与(yu)价值。国内与(yu)国际的(de)淘宝、亚马逊等(deng)电商(shang)平台纷(fen)纷(fen)推出(chu)相关服务,正是出(chu)于这一考量。

然而,在中国,现象级的视觉搜索产品尚未出现。许多厂商的(de)视(shi)觉搜索(suo)基于AI1.0时(shi)代(dai)的(de)判别(bie)式基础视(shi)觉算法(fa),依托(tuo)大量(liang)数据,专注于某(mou)一(yi)垂直领域,如搜题(ti)、识花(hua)、购物等,未能实现(xian)破(po)圈。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

即便是具备“识万物”能力的产品,也大多停留在了“识你所见”的层面,并且在复杂场景上的表现并不理想。当用户需要了解图片背后的更多信息时,仍需链接到搜索引擎的结果,理解分析能力成为上一(yi)代视觉(jue)搜索的明显(xian)短板,亟待突(tu)破。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

二、从判别到生成,GenAI重新定义视觉搜索

互联网诞(dan)生以(yi)来(lai),搜索(suo)的(de)(de)形(xing)态就处于(yu)不断流变的(de)(de)过(guo)程中(zhong)。以(yi)Google为代表(biao)的(de)(de)传统搜索(suo)通(tong)过(guo)匹配关键词来(lai)获取信(xin)息,其核心(xin)是(shi)基于(yu)文字的(de)(de)资(zi)讯检索(suo)。

随着深度学习(xi)浪潮的开启,视觉搜索应运而生,以Google Lens早(zao)期版(ban)本为(wei)代表的同类产品以图像识别技术为(wei)核(he)心,匹配数据(ju)库中的物体、场景(jing)或文字。

在GenAI技术(shu)的洗(xi)礼之下,传统搜索(suo)已往生成式搜索(suo)靠(kao)拢,显然,视觉搜索(suo)也需要顺应这一趋势。用户已经不再(zai)满足于仅仅获取信息(xi),而是期待(dai)更丰富(fu)、更智能、更个性化的体验与解读。

视觉搜索需要从单纯的信息检索工具,进化为能够理解用户意图、提供个性化内容、激发创意灵感、连接服务生态的下一代生成式视觉搜索

GenAI对视觉搜索的变革性意义已经成为共识。

去年(nian),谷歌旗下的(de)视觉搜索产品已(yi)与(yu)大模(mo)型(xing)进(jin)(jin)行了深度融合,可在识别画面信息之外(wai)回答(da)用(yong)户的(de)问题,内容由(you)模(mo)型(xing)进(jin)(jin)行整(zheng)合并输出。Google Lens还进(jin)(jin)一(yi)步(bu)支(zhi)持了视频提问、语音提问等(deng)功能,同(tong)样也可为用(yong)户提供(gong)丰(feng)富、个性化(hua)的(de)交互体(ti)验。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

苹果也提升了(le)对视(shi)(shi)觉智(zhi)能(neng)的(de)重视(shi)(shi)。新款(kuan)iPhone的(de)“相机控制(zhi)”按(an)钮能(neng)一键启用(yong)视(shi)(shi)觉智(zhi)能(neng),成为Apple Intelligence的(de)视(shi)(shi)觉入口(kou),支持拍(pai)餐厅看评价(jia)、拍(pai)传单添加日(ri)程、拍(pai)小狗(gou)看品种、拍(pai)商品买同款(kuan)等(deng)新颖的(de)交互体(ti)验(yan)。

支付宝近期推出“探一下”,也正是由于他们把握住了生成式视觉搜索这一视觉搜索领域的新趋势。“探一下”业务负责人蔡伟(David Cai)曾在谷歌工作,从零开始深度参与了Google Lens等视觉搜索项目,他认为这一代基于多模态大模型的视觉搜索技术变迁有两大趋势,一是由搜索走向生成,二是由文本输入走向多模态、全模态输入。

据了解(jie),“探一下”的(de)视(shi)觉原生解(jie)决方案将多模(mo)态大模(mo)型能力同(tong)mRAG(多模(mo)态检(jian)索(suo)增(zeng)强(qiang)生成)、基(ji)础视(shi)觉算(suan)法、Agent能力相结(jie)合,以(yi)视(shi)觉为(wei)中(zhong)心,提供了以(yi)探索(suo)为(wei)核心亮点(dian),有用、有趣的(de)用户(hu)体验。

为稳住识别等“求知”类需求的基本盘,并进行更具深度和广度的分析解读,“探一下”采用多模态大模型全图理解+open-set多主体检测的技术链路,能够识别特定场景(jing)中的(de)(de)多个(ge)主体(ti),并将识别的(de)(de)结果聚合(he)到一起,从而(er)实(shi)现意图识别的(de)(de)快响(xiang)应、高(gao)精(jing)度,并借助(zhu)大模型理解力(li)和知识力(li),进(jin)一步分析信息(xi)(xi)、理解信息(xi)(xi)、提供信息(xi)(xi)。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

在精细化识(shi)别的基础上,“探(tan)一下(xia)”还可提供(gong)趣味性、启发性的内容。结(jie)合预训练好的“读心、幽默、治愈”等(deng)文本(ben)模版,“探(tan)灵感”功(gong)能可以即(ji)时生成对应“类(lei)人”风格的文本(ben)。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

响应速度是不少AI产品落地时的痛点。蔡伟介绍,“探一下”联合蚂蚁百灵多模态大模型团队,针对大模型进行了轻量化推理加速,并采(cai)用(yong)了(le)从视(shi)觉初定位,到粗(cu)意图,再到精细(xi)化(hua)识别(bie)的(de)(de)Coarse-to-Fine机制,缩短了(le)结(jie)果输出的(de)(de)耗(hao)时(shi),为用(yong)户提供了(le)更为即时(shi)的(de)(de)体验。

准确性则是所有AI产品真正发挥实际效用(yong)的(de)关键。探一下在生成回答时(shi)依靠不同的(de)数(shu)据源,利用(yong)RAG技术综合(he)信(xin)息进(jin)行(xing)交叉验(yan)证,还在最终输出(chu)时(shi)注明来源,让结果更可(ke)靠,用(yong)户更信(xin)任(ren)。

同时,“探一下”在隐私与安全上保持了与支付宝金融级产品一样的安全合规标准,对图片类型、数据存储位置(用户或服务(wu)器)都进(jin)行了细致严格的限定(ding)。

三、链接支付宝生态,“探一下”探万物的可能性

“探一下”目前的主要入口是支付宝的扫一扫功能,这从一定程度上反映了蚂蚁对这一交互形式的信心与决心。“我们认为生成式AI带来的搜索变革,其实是一个全新的交互形态,视觉不仅仅是文本的一个附庸,而是能承载独立的产品入口。”

蔡伟进一(yi)(yi)步介绍,扫(sao)(sao)一(yi)(yi)扫(sao)(sao)在过去已积累(lei)了(le)亿万级的(de)用户(hu)(hu),新应用“探一(yi)(yi)下(xia)”能利用这一(yi)(yi)优势,降低培养用户(hu)(hu)习惯的(de)成(cheng)本。如果探一(yi)(yi)下(xia)能为用户(hu)(hu)创造足够多(duo)的(de)价值(zhi),或许有希望(wang)引发如上(shang)一(yi)(yi)轮“扫(sao)(sao)一(yi)(yi)扫(sao)(sao)”般的(de)新一(yi)(yi)轮用户(hu)(hu)行为升级。

未来(lai),“探一下(xia)(xia)”仍然会专注于(yu)大模(mo)型(xing)具有优势,而(er)前一代技术无法实现的场(chang)景。蚂蚁并不是一家搜索起家的企(qi)业,这(zhei)让(rang)他们得以轻装上阵,更自(zi)由地探索“探一下(xia)(xia)”发展的可能性。

基于支付宝丰富的服务供给,“探(tan)一(yi)下(xia)”未来可(ke)能(neng)(neng)会接入(ru)小程序、智(zhi)(zhi)能(neng)(neng)体(ti)和其(qi)他(ta)潜在的用户交(jiao)(jiao)互形式(shi)。今年蚂蚁(yi)集团接连推(tui)出了AI生(sheng)活管(guan)家(jia)(jia)“支小宝”、AI金(jin)融管(guan)家(jia)(jia)“蚂小财”和AI健康(kang)管(guan)家(jia)(jia)。作为视觉元素(su)交(jiao)(jiao)互入(ru)口,“探(tan)一(yi)下(xia)”也有可(ke)能(neng)(neng)成为链接三大管(guan)家(jia)(jia)服(fu)务(wu)(wu)的重要入(ru)口。比如,在健康(kang)管(guan)家(jia)(jia)中(zhong),“探(tan)一(yi)下(xia)”可(ke)以识(shi)别药物,并且进一(yi)步链接用药指南、报告(gao)解读、医(yi)生(sheng)推(tui)荐(jian)、智(zhi)(zhi)能(neng)(neng)导诊等健康(kang)服(fu)务(wu)(wu)。

支付宝长眼睛了!打造新一代视觉搜索,AI帮你探索万物

在三大AI管家之外,作为独立的视觉原生入口,“探一下”还能识别汽车等物品及场景,链接到支付宝的“车生活”服务,提供看车、充电等生活服务,具备链接商业世界的想象力空间。

“探一下”也可落地到更丰富的应用场景,如旅游、户外、亲子等(deng)场景,不(bu)断(duan)扩(kuo)大内容(rong)生(sheng)态;也能基于支付(fu)宝数字(zi)公(gong)益(yi)方面的经验,发挥更大的社会价(jia)值,比(bi)如,探索无障(zhang)(zhang)碍(ai)辅(fu)助等(deng)领域,更好(hao)服(fu)务视障(zhang)(zhang)人群。

“探一下”团队在测试与发布过程中发现了不少意外之喜:如用(yong)(yong)户(hu)(hu)很喜欢用(yong)(yong)它来识别昆虫;部分用(yong)(yong)户(hu)(hu)还用(yong)(yong)“探一(yi)(yi)下”取代相机,作为(wei)内容记录与(yu)分享的新(xin)方(fang)式。作为(wei)一(yi)(yi)款C端的通用(yong)(yong)AI视觉搜(sou)索产品,“探一(yi)(yi)下”未(wei)来会针对用(yong)(yong)户(hu)(hu)需求不(bu)断进(jin)行迭(die)代,持续优化体验。

此外,新一代视觉搜索也带来了智能硬件的发展想象。在部分场景中,“Always-on”的智能眼镜等硬件能提供比手机更好的用户体验,蔡伟称“探一下”也在思考与智能硬件的融合模式。

结语:“探一下”或将引领下一代AI视觉搜索趋势

搜(sou)(sou)索是互联网的(de)(de)组织层,串联起用(yong)户、信息(xi)、商业(ye)、服务等诸多(duo)要素,是信息(xi)、智(zhi)能(neng)世(shi)界的(de)(de)重要入口(kou)。谷歌定(ding)义了搜(sou)(sou)索目前的(de)(de)模(mo)样,但他们起初或许并不(bu)知道搜(sou)(sou)索会长成它现(xian)在的(de)(de)样子。

在生成式AI时代(dai),视觉(jue)搜(sou)(sou)索这个动作(zuo),将(jiang)极大丰(feng)富搜(sou)(sou)索的(de)样式,搜(sou)(sou)索不再是(shi)(shi)从已知中找答案,而(er)是(shi)(shi)基于多模态大模型的(de)视觉(jue)理解与创作(zuo)能力,提(ti)供更(geng)(geng)智能、更(geng)(geng)丰(feng)富、更(geng)(geng)具交互性(xing)的(de)服务(wu)体验(yan)。

蚂(ma)蚁(yi)集团(tuan)入局AI视觉(jue)搜索,正(zheng)是(shi)对(dui)其AI First战略的进一步加速。2024年(nian),蚂(ma)蚁(yi)集团(tuan)发布三大AI管家,设立强化学(xue)习实验(yan)室(shi),AI专利、AI论文数量猛增。而支(zhi)付(fu)(fu)宝(bao)的“探一下(xia)”也正(zheng)在探索下(xia)一代AI视觉(jue)搜索新范式,焕新传统的搜索产品,也有希望让AI像(xiang)扫码支(zhi)付(fu)(fu)一样便利每个人的生活——不(bu)止有大脑能(neng)对(dui)话、有手脚(jiao)能(neng)办事,更有眼(yan)睛能(neng)探索身边(bian)世(shi)界。