智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西6月16日报道,在今日举行的人工智能框架生态峰会2023上,中国科学院自动化研究所所长徐波正式发布紫东太初2.0全模态大模型。

相比以前的大模型,紫东太初2.0新增了视频、传感信号、3D点云等模态,拥有了更强的(de)认知(zhi)、理解、创作能(neng)力。
它不仅有和ChatGPT类似的多轮问答、文本创作能力,还实现了全模态输入,支持视频、图像、音乐、3D、信号的理解,并能够实现图文音搜索、图像(xiang)生(sheng)成、音乐生成、信(xin)号分(fen)析等功能。

智东西第一时间(jian)对紫东太初2.0的(de)音乐能(neng)力(li)、信号(hao)类(lei)能(neng)力(li)、视(shi)频(pin)能(neng)力(li)、跨模态能(neng)力(li)、图(tu)像能(neng)力(li)、语言能(neng)力(li)等进行体验(yan)。
一、五大能力详解,从生成音乐、看懂视频到推理分析
1、音乐及信号类能力:生成、识别、多模问答
紫(zi)东太初(chu)2.0可以通过给定的文本(ben)提示,可控生成高保(bao)真的音(yin)乐(le),并支持即兴创作多种(zhong)风格类(lei)型和多种(zhong)乐(le)器(qi)演奏的音(yin)乐(le)。
648c16a582594_648c16a58254b_屏幕录制2023-06-16-13.11.17
比如,上传(chuan)一(yi)段音乐(le)(le)文件,让紫东太(tai)初2.0识(shi)别(bie)这(zhei)个(ge)音乐(le)(le)是什么,它能识(shi)别(bie)出这(zhei)是贝多芬的交响曲,并分(fen)享了这(zhei)段音乐(le)(le)表达了怎样的感情。

你(ni)还可以询问(wen)这段(duan)音乐(le)(le)是用(yong)什么乐(le)(le)器演奏的,让紫东太初(chu)2.0根据这段(duan)音乐(le)(le)作诗,或者追(zhui)问(wen)贝多芬的生平是怎(zen)样(yang)的。
紫(zi)东太初2.0也(ye)支持雷达信号鉴别(bie)与知识交互,可借助模型快速掌握信号基本来源及参数(shu)等。
上传一段信号后,你可(ke)以向(xiang)它询问这段信号的(de)相关信息。

2、视频能力:理解、描述、搜索
视(shi)频能(neng)力方(fang)面,紫(zi)东太(tai)初2.0能(neng)基于(yu)用户上传的视(shi)频素材(cai),准确理(li)解并(bing)回答(da)视(shi)频识别(bie)、视(shi)频描(miao)述(shu)类问题,同时支持上下文信息理(li)解和多(duo)轮问答(da)。
比如,上传(chuan)一段(duan)唱歌跳舞的(de)视(shi)(shi)频(pin),问紫东太初2.0这段(duan)视(shi)(shi)频(pin)描述了(le)什么、对视(shi)(shi)频(pin)中音乐的(de)感受(shou)、是(shi)否认(ren)可等问题。


此外(wai),紫(zi)东(dong)太初(chu)2.0拥(yong)有海量(liang)的高质视频素材库,具备视频素材检索(suo)能力。
比如让它找(zhao)一(yi)个踢足球的视(shi)频。

你(ni)还可(ke)以针(zhen)对视(shi)(shi)频内容进一步发问,让(rang)紫东太(tai)初(chu)2.0结(jie)合动(dong)作和音乐分析视(shi)(shi)频,或是根据视(shi)(shi)频内容预测(ce)后面可(ke)能发生什么事。

3、跨模态能力:“图像+音频+视频”理解与分析
紫东太初2.0能结(jie)合(he)(he)多个图像(xiang)、音频(pin)、视频(pin)文件,进行(xing)综合(he)(he)理(li)解与创作。
上传两个(ge)视频(pin),问(wen)这两个(ge)视频(pin)的(de)(de)共同特点是什么(me)?对此,紫(zi)东太初2.0能够结合视频(pin)的(de)(de)画面和声音,分(fen)析出共通之处以及各自的(de)(de)差异点。

另一(yi)个例(li)子是图像(xiang)+音频(pin)。
上(shang)传一张图书馆(guan)的图片(pian)和一段鼓(gu)掌(zhang)声音(yin)频(pin),问这段音(yin)频(pin)有没有可能出(chu)现在图片(pian)里的场(chang)景(jing)中?

紫东(dong)太初2.0给出(chu)答案:不太可能,原(yuan)因是图(tu)片中的场景没有庆祝或(huo)欢(huan)迎(ying)的氛(fen)围(wei)。

或者,上传一(yi)张足球场(chang)的图(tu)片(pian)+一(yi)段鼓掌声音(yin)(yin)频,让紫东太(tai)初2.0结合图(tu)片(pian)和(he)音(yin)(yin)频,分析一(yi)下场(chang)景的氛(fen)围。


通过综合理解图像(xiang)、音频、视(shi)频信息(xi),紫东太初2.0“拼出”一个完整的(de)信息(xi)描述,或(huo)者将这些(xie)内容串联形成一段流(liu)畅的(de)故事。

4、图像与3D场景能力:描述、目标检测、检索、生成
紫东(dong)太初(chu)2.0能基(ji)于(yu)用户上传的(de)图片(pian)素材(cai),准确理解(jie)并回(hui)答图片(pian)识(shi)(shi)别(bie)类(lei)问题,包括识(shi)(shi)别(bie)图像主体、背景、动作、颜色(se)等等,同(tong)时支持上下文信息理解(jie)和多(duo)轮问答。
比如(ru)问“图里有(you)几只(zhi)动物”、“小(xiao)狗和小(xiao)猫在做什(shen)么(me)”,紫东(dong)太初2.0给(ji)出了具体的描述(shu)。

你还(hai)可以针对这张图片(pian),询问(wen)更多细节,比(bi)如小动物的毛色、它们在什么地方玩(wan)。

上传(chuan)风车的图(tu)片,问(wen)“这(zhei)个装置的作用是什(shen)么(me)”,紫东太初(chu)2.0给(ji)的回答包括(kuo)“风力发电站(zhan)”。

接着追(zhui)问“为(wei)什(shen)么要在图中位置建设这(zhei)样(yang)的装置”,它马上给出回答:“为(wei)了(le)让它更加(jia)接近自(zi)然环(huan)境,以便更好地(di)利用风能。”

此外,紫东太初(chu)2.0具备基于点云数据的(de)3D场景理解和物(wu)体感知(zhi)能力。你可以让它描述从(cong)这张三维图(tu)里看到了(le)什么信(xin)息(xi)。

不过在(zai)理(li)解(jie)梗图方(fang)面,紫(zi)东太初2.0的(de)能力(li)还没有开发出来,并不能弄明白(bai)下图好笑在(zai)哪儿(er)。


除了搜(sou)视频,紫东太初(chu)2.0也能被(bei)用于搜(sou)图(tu)。比如让(rang)它(ta)生(sheng)成一张熊猫的(de)图(tu)片。

在生成图(tu)像方面,紫东太初(chu)(chu)2.0可以生成指定(ding)风(feng)格的(de)图(tu)。比如我要求(qiu)“用中国画(hua)风(feng)格画(hua)一只慵懒(lan)的(de)猫(mao)”,紫东太初(chu)(chu)2.0立刻画(hua)出了一张卧着的(de)虎皮(pi)猫(mao)。

5、语言与编程:问答、创作、查错、写代码
在语(yu)言能力方面,和多数(shu)大(da)型(xing)语(yu)言模型(xing)一样,紫东太初2.0支持中文(wen)(wen)问答、逻辑推理、文(wen)(wen)本(ben)摘(zhai)要、文(wen)(wen)本(ben)续写、文(wen)(wen)本(ben)创(chuang)作、标题生成、语(yu)法分(fen)析、机器翻(fan)译等等。

它能(neng)准确(que)理解用户(hu)输入(ru)的问题语境,并(bing)能(neng)做(zuo)出准确(que)的知(zhi)识(shi)性(xing)问答,包括生活(huo)常识(shi)、工作技能(neng)、医学知(zhi)识(shi)、历史人文等知(zhi)识(shi)领域。

给紫东(dong)太初2.0一篇文(wen)章,它(ta)能(neng)快速理(li)解文(wen)章的核心观点,根(gen)据长文(wen)本(ben)提(ti)取简洁而准确的摘要。

它也(ye)能写(xie)一(yi)个拥有出人意料结局的推理小说。

写个快速(su)排序代码,同样(yang)不在话下。

综(zong)合来看,紫东太初2.0在图(tu)文音多模态能力的(de)基(ji)础之上,增(zeng)加了(le)对(dui)视频(pin)、3D场景和信号等模态的(de)理(li)(li)解(jie)(jie),用更多模态信息来弥补单模态的(de)局限(xian)性,更好(hao)地(di)增(zeng)强了(le)对(dui)多种模态的(de)综(zong)合理(li)(li)解(jie)(jie)和认(ren)知。
二、突破多项多模态关键技术,完成跨模态对齐
徐波说,中科院早在2008年就开始推进图文音的单独攻关,2020年1月启动多模态联合攻关,从2021年1月做出百亿模型到2021年9月发布全球首个千亿参数图文音三模态大模型紫东太初1.0,再到推出紫东太初2.0,以昇腾AI硬(ying)件及昇思MindSpore AI框架(jia)为基础,依托武汉(han)人工(gong)智(zhi)能计(ji)算中心算力支持,利(li)用预训练+微调技术,在大的神经网(wang)络(luo)上,把多个场景的知识和数据(ju)都(dou)吸纳到一(yi)个模型上。

但(dan)物(wu)理世界的(de)信息种(zhong)类远多于图文(wen)音,有(you)大(da)量结构化(hua)、半(ban)结构化(hua)、非结构化(hua)数据(ju),包括温度、深度、压力信号(hao)、3D超声波指纹、脉搏波、降(jiang)水(shui)量、人体红外、3D激(ji)光等等诸多形式。

基于这样(yang)的认识(shi),面向数(shu)字物(wu)联时(shi)代(dai),紫(zi)东太初2.0推出实现了能接入(ru)非结构化、半结构化、结构化等数(shu)据(ju)的全模(mo)态(tai)大模(mo)型开放(fang)系统架构。
面(mian)对(dui)全(quan)模态数据,紫东太初2.0率(lv)先实(shi)现了认知增强的多模态关联,在全(quan)模态理解能(neng)力(li)(li)、生(sheng)成能(neng)力(li)(li)、对(dui)齐(qi)能(neng)力(li)(li)上实(shi)现了跃升。
研(yan)究(jiu)团队重点研(yan)究(jiu)突破(po)了多模态(tai)分组认(ren)知(zhi)编码(ma)、全模态(tai)认(ren)知(zhi)对齐和(he)融(rong)合、多模态(tai)分组认(ren)知(zhi)解码(ma)等关(guan)键技术,使多模态(tai)关(guan)联的认(ren)知(zhi)能力(li)大(da)幅提高。

通过(guo)完成音乐、图像、视(shi)频(pin)等数据之间(jian)的跨模(mo)(mo)态(tai)(tai)对齐(qi),紫东太初(chu)2.0可(ke)处(chu)理音乐视(shi)频(pin)分析、三维导航(hang)等多模(mo)(mo)态(tai)(tai)关联应(ying)用应(ying)用需求,并可(ke)实现(xian)音乐、视(shi)频(pin)等多模(mo)(mo)态(tai)(tai)内容(rong)生成。
由此(ci),紫东(dong)太初2.0打通了感知(zhi)、认(ren)知(zhi)乃至决策的(de)交互屏障,具有全模态能(neng)(neng)(neng)力的(de)涌(yong)现(xian),使(shi)得(de)人工智(zhi)能(neng)(neng)(neng)进一(yi)步感知(zhi)、认(ren)知(zhi)世界,从而延(yan)伸出更(geng)加强大的(de)通用(yong)能(neng)(neng)(neng)力。
三、落地进展:助攻颅内手术,研判违规行为,溯源敏感信息
徐波说,紫东太初(chu)底(di)座大模型正赋(fu)能千行百业,包(bao)括(kuo)布匹纺织及(ji)缺陷检测、文旅导(dao)游(you)、柔性(xing)手(shou)术(shu)机器(qi)人(ren)、AI手(shou)语老师等。

例如在医(yi)疗场景,基于紫东太初打(da)造的颅内手(shou)术(shu)多模(mo)态智(zhi)能助(zhu)(zhu)手(shou)可(ke)实(shi)现不同(tong)模(mo)态的高效协同(tong)与转换,尤其是视觉、触觉的跨模(mo)态融(rong)合,解决了机器人辅助(zhu)(zhu)手(shou)术(shu)中触觉缺失的国(guo)际(ji)性难题(ti)。
协和医院用到紫东(dong)太初2.0在(zai)全(quan)模(mo)态方面(mian)(mian)的推理(li)功能(neng),去(qu)尝试在(zai)医疗诊断方面(mian)(mian)做一些有挑战(zhan)性的工(gong)作(zuo),尤其是在(zai)心、脑(nao)、肾三(san)个罕见(jian)病(bing)中,利用多(duo)种(zhong)医疗模(mo)态和患(huan)者(zhe)病(bing)例特(te)点,生成拟诊讨论,在(zai)诊断、鉴别诊断和治(zhi)疗计划给出一些建议。
在交通(tong)场景(jing),以前智(zhi)能系统更多关注(zhu)识(shi)别到比(bi)较常见(jian)的交通(tong)违(wei)规行为,但实(shi)(shi)(shi)际场景(jing)中会(hui)有很多细碎(sui)的违(wei)规行为,比(bi)如压实(shi)(shi)(shi)线、摩托(tuo)车不戴头盔、三轮车违(wei)法载人等(deng)等(deng)。只需输入对(dui)违(wei)规行为的文字描述,再给1~2张图片,紫东太(tai)初就能实(shi)(shi)(shi)现(xian)对(dui)违(wei)规行为认知级(ji)别的研判。
在互(hu)联网短视(shi)频(pin)场景中,有些短视(shi)频(pin)的标题和简介(jie)文本没有问题,但视(shi)频(pin)内(nei)容包(bao)含敏感(gan)信息。利(li)用多模态融合感(gan)知技术(shu),可以对视(shi)频(pin)进行溯源,及(ji)时发(fa)现(xian)风险内(nei)容。
在大模型的(de)基础上,中科(ke)院也(ye)研发了紫东太初开放(fang)服务平(ping)台(tai),以(yi)惠及更多用(yong)户(hu)。

结语:迈向通用人工智能的三条路径
徐波说,大(da)(da)模(mo)型(xing)(xing)成为人(ren)工智能发展的里程碑和分(fen)水岭,以ChatGPT为代(dai)表的“大(da)(da)算(suan)力+大(da)(da)数据+大(da)(da)模(mo)型(xing)(xing)”标志着通(tong)用人(ren)工智能时代(dai)的来临(lin),大(da)(da)模(mo)型(xing)(xing)将实现对劳动力、资本(ben)等生产要(yao)素的智能替(ti)代(dai)和功能倍增,促(cu)进全要(yao)素生产率的提高。
人类的(de)学(xue)习和交互(hu)过(guo)程中(zhong)充满了多模(mo)态信(xin)息,包(bao)括自(zi)然语言(yan)、视觉、听觉、触觉、嗅觉/味(wei)觉、生理信(xin)号等等。以婴儿早期(qi)发育为例,它通(tong)过(guo)多种模(mo)态信(xin)息可以很容(rong)易地感(gan)知和学(xue)习世界(jie),基于这一(yi)认(ren)识,紫(zi)东太初大模(mo)型(xing)从一(yi)开始走的(de)就是多模(mo)态技术路线。
据徐波(bo)分享,通过可自(zi)主进化通用(yong)人工智(zhi)能(neng)(neng)有(you)三(san)条路径:类脑智(zhi)能(neng)(neng)、信息智(zhi)能(neng)(neng)、博弈智(zhi)能(neng)(neng)。

他认为(wei),目(mu)前全模态的(de)信息智(zhi)(zhi)能(neng)走得(de)更快,但它(ta)一定会(hui)吸(xi)纳类(lei)脑(nao)智(zhi)(zhi)能(neng)在极低功耗及演化(hua)机(ji)制(zhi)(zhi)方面的(de)优(you)势,也(ye)一定会(hui)吸(xi)纳博弈(yi)智(zhi)(zhi)能(neng)与环境交互产(chan)生自适应(ying)能(neng)力的(de)机(ji)制(zhi)(zhi),融合起来,才(cai)是(shi)更强的(de)通用人工智(zhi)(zhi)能(neng)。