中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

智东西（公众号：zhidxcom）
作者 | ZeR0
编辑 | 漠影

智东西6月16日报道，在今日举行的人工智能框架生态峰会2023上，中国科学院自动化研究所所长徐波正式发布紫东太初2.0全模态大模型。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

相比以前的大模型，紫东太初2.0新增了视频、传感信号、3D点云等模态，拥有了更强的(de)认知(zhi)、理解、创作能(neng)力。

它不仅有和ChatGPT类似的多轮问答、文本创作能力，还实现了全模态输入，支持视频、图像、音乐、3D、信号的理解，并能够实现图文音搜索、图像(xiang)生(sheng)成、音乐生成、信(xin)号分(fen)析等功能。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

智东西第一时间(jian)对紫东太初2.0的(de)音乐能(neng)力(li)、信号(hao)类(lei)能(neng)力(li)、视(shi)频(pin)能(neng)力(li)、跨模态能(neng)力(li)、图(tu)像能(neng)力(li)、语言能(neng)力(li)等进行体验(yan)。

一、五大能力详解，从生成音乐、看懂视频到推理分析

1、音乐及信号类能力：生成、识别、多模问答

紫(zi)东太初(chu)2.0可以通过给定的文本(ben)提示，可控生成高保(bao)真的音(yin)乐(le)，并支持即兴创作多种(zhong)风格类(lei)型和多种(zhong)乐(le)器(qi)演奏的音(yin)乐(le)。

648c16a582594_648c16a58254b_屏幕录制2023-06-16-13.11.17

比如，上传(chuan)一(yi)段音乐(le)(le)文件，让紫东太(tai)初2.0识(shi)别(bie)这(zhei)个(ge)音乐(le)(le)是什么，它能识(shi)别(bie)出这(zhei)是贝多芬的交响曲，并分(fen)享了这(zhei)段音乐(le)(le)表达了怎样的感情。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

你(ni)还可以询问(wen)这段(duan)音乐(le)(le)是用(yong)什么乐(le)(le)器演奏的，让紫东太初(chu)2.0根据这段(duan)音乐(le)(le)作诗，或者追(zhui)问(wen)贝多芬的生平是怎(zen)样(yang)的。

紫(zi)东太初2.0也(ye)支持雷达信号鉴别(bie)与知识交互，可借助模型快速掌握信号基本来源及参数(shu)等。

上传一段信号后，你可(ke)以向(xiang)它询问这段信号的(de)相关信息。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

2、视频能力：理解、描述、搜索

视(shi)频能(neng)力方(fang)面，紫(zi)东太(tai)初2.0能(neng)基于(yu)用户上传的视(shi)频素材(cai)，准确理(li)解并(bing)回答(da)视(shi)频识别(bie)、视(shi)频描(miao)述(shu)类问题，同时支持上下文信息理(li)解和多(duo)轮问答(da)。

比如，上传(chuan)一段(duan)唱歌跳舞的(de)视(shi)(shi)频(pin)，问紫东太初2.0这段(duan)视(shi)(shi)频(pin)描述了(le)什么、对视(shi)(shi)频(pin)中音乐的(de)感受(shou)、是(shi)否认(ren)可等问题。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

此外(wai)，紫(zi)东(dong)太初(chu)2.0拥(yong)有海量(liang)的高质视频素材库，具备视频素材检索(suo)能力。

比如让它找(zhao)一(yi)个踢足球的视(shi)频。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

你(ni)还可(ke)以针(zhen)对视(shi)(shi)频内容进一步发问，让(rang)紫东太(tai)初(chu)2.0结(jie)合动(dong)作和音乐分析视(shi)(shi)频，或是根据视(shi)(shi)频内容预测(ce)后面可(ke)能发生什么事。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

3、跨模态能力：“图像+音频+视频”理解与分析

紫东太初2.0能结(jie)合(he)(he)多个图像(xiang)、音频(pin)、视频(pin)文件，进行(xing)综合(he)(he)理(li)解与创作。

上传两个(ge)视频(pin)，问(wen)这两个(ge)视频(pin)的(de)(de)共同特点是什么(me)？对此，紫(zi)东太初2.0能够结合视频(pin)的(de)(de)画面和声音，分(fen)析出共通之处以及各自的(de)(de)差异点。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

另一(yi)个例(li)子是图像(xiang)+音频(pin)。

上(shang)传一张图书馆(guan)的图片(pian)和一段鼓(gu)掌(zhang)声音(yin)频(pin)，问这段音(yin)频(pin)有没有可能出(chu)现在图片(pian)里的场(chang)景(jing)中？

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

紫东(dong)太初2.0给出(chu)答案：不太可能，原(yuan)因是图(tu)片中的场景没有庆祝或(huo)欢(huan)迎(ying)的氛(fen)围(wei)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

或者，上传一(yi)张足球场(chang)的图(tu)片(pian)+一(yi)段鼓掌声音(yin)(yin)频，让紫东太(tai)初2.0结合图(tu)片(pian)和(he)音(yin)(yin)频，分析一(yi)下场(chang)景的氛(fen)围。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

通过综合理解图像(xiang)、音频、视(shi)频信息(xi)，紫东太初2.0“拼出”一个完整的(de)信息(xi)描述，或(huo)者将这些(xie)内容串联形成一段流(liu)畅的(de)故事。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

4、图像与3D场景能力：描述、目标检测、检索、生成

紫东(dong)太初(chu)2.0能基(ji)于(yu)用户上传的(de)图片(pian)素材(cai)，准确理解(jie)并回(hui)答图片(pian)识(shi)(shi)别(bie)类(lei)问题，包括识(shi)(shi)别(bie)图像主体、背景、动作、颜色(se)等等，同(tong)时支持上下文信息理解(jie)和多(duo)轮问答。

比如(ru)问“图里有(you)几只(zhi)动物”、“小(xiao)狗和小(xiao)猫在做什(shen)么(me)”，紫东(dong)太初2.0给(ji)出了具体的描述(shu)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

你还(hai)可以针对这张图片(pian)，询问(wen)更多细节，比(bi)如小动物的毛色、它们在什么地方玩(wan)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

上传(chuan)风车的图(tu)片，问(wen)“这(zhei)个装置的作用是什(shen)么(me)”，紫东太初(chu)2.0给(ji)的回答包括(kuo)“风力发电站(zhan)”。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

接着追(zhui)问“为(wei)什(shen)么要在图中位置建设这(zhei)样(yang)的装置”，它马上给出回答：“为(wei)了(le)让它更加(jia)接近自(zi)然环(huan)境，以便更好地(di)利用风能。”

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

此外，紫东太初(chu)2.0具备基于点云数据的(de)3D场景理解和物(wu)体感知(zhi)能力。你可以让它描述从(cong)这张三维图(tu)里看到了(le)什么信(xin)息(xi)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

不过在(zai)理(li)解(jie)梗图方(fang)面，紫(zi)东太初2.0的(de)能力(li)还没有开发出来，并不能弄明白(bai)下图好笑在(zai)哪儿(er)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

除了搜(sou)视频，紫东太初(chu)2.0也能被(bei)用于搜(sou)图(tu)。比如让(rang)它(ta)生(sheng)成一张熊猫的(de)图(tu)片。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

在生成图(tu)像方面，紫东太初(chu)(chu)2.0可以生成指定(ding)风(feng)格的(de)图(tu)。比如我要求(qiu)“用中国画(hua)风(feng)格画(hua)一只慵懒(lan)的(de)猫(mao)”，紫东太初(chu)(chu)2.0立刻画(hua)出了一张卧着的(de)虎皮(pi)猫(mao)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

5、语言与编程：问答、创作、查错、写代码

在语(yu)言能力方面，和多数(shu)大(da)型(xing)语(yu)言模型(xing)一样，紫东太初2.0支持中文(wen)(wen)问答、逻辑推理、文(wen)(wen)本(ben)摘(zhai)要、文(wen)(wen)本(ben)续写、文(wen)(wen)本(ben)创(chuang)作、标题生成、语(yu)法分(fen)析、机器翻(fan)译等等。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

它能(neng)准确(que)理解用户(hu)输入(ru)的问题语境，并(bing)能(neng)做(zuo)出准确(que)的知(zhi)识(shi)性(xing)问答，包括生活(huo)常识(shi)、工作技能(neng)、医学知(zhi)识(shi)、历史人文等知(zhi)识(shi)领域。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

给紫东(dong)太初2.0一篇文(wen)章，它(ta)能(neng)快速理(li)解文(wen)章的核心观点，根(gen)据长文(wen)本(ben)提(ti)取简洁而准确的摘要。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

它也(ye)能写(xie)一(yi)个拥有出人意料结局的推理小说。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

写个快速(su)排序代码，同样(yang)不在话下。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

综(zong)合来看，紫东太初2.0在图(tu)文音多模态能力的(de)基(ji)础之上，增(zeng)加了(le)对(dui)视频(pin)、3D场景和信号等模态的(de)理(li)(li)解(jie)(jie)，用更多模态信息来弥补单模态的(de)局限(xian)性，更好(hao)地(di)增(zeng)强了(le)对(dui)多种模态的(de)综(zong)合理(li)(li)解(jie)(jie)和认(ren)知。

二、突破多项多模态关键技术，完成跨模态对齐

徐波说，中科院早在2008年就开始推进图文音的单独攻关，2020年1月启动多模态联合攻关，从2021年1月做出百亿模型到2021年9月发布全球首个千亿参数图文音三模态大模型紫东太初1.0，再到推出紫东太初2.0，以昇腾AI硬(ying)件及昇思MindSpore AI框架(jia)为基础，依托武汉(han)人工(gong)智(zhi)能计(ji)算中心算力支持，利(li)用预训练+微调技术，在大的神经网(wang)络(luo)上，把多个场景的知识和数据(ju)都(dou)吸纳到一(yi)个模型上。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

但(dan)物(wu)理世界的(de)信息种(zhong)类远多于图文(wen)音，有(you)大(da)量结构化(hua)、半(ban)结构化(hua)、非结构化(hua)数据(ju)，包括温度、深度、压力信号(hao)、3D超声波指纹、脉搏波、降(jiang)水(shui)量、人体红外、3D激(ji)光等等诸多形式。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

基于这样(yang)的认识(shi)，面向数(shu)字物(wu)联时(shi)代(dai)，紫(zi)东太初2.0推出实现了能接入(ru)非结构化、半结构化、结构化等数(shu)据(ju)的全模(mo)态(tai)大模(mo)型开放(fang)系统架构。

面(mian)对(dui)全(quan)模态数据，紫东太初2.0率(lv)先实(shi)现了认知增强的多模态关联，在全(quan)模态理解能(neng)力(li)(li)、生(sheng)成能(neng)力(li)(li)、对(dui)齐(qi)能(neng)力(li)(li)上实(shi)现了跃升。

研(yan)究(jiu)团队重点研(yan)究(jiu)突破(po)了多模态(tai)分组认(ren)知(zhi)编码(ma)、全模态(tai)认(ren)知(zhi)对齐和(he)融(rong)合、多模态(tai)分组认(ren)知(zhi)解码(ma)等关(guan)键技术，使多模态(tai)关(guan)联的认(ren)知(zhi)能力(li)大(da)幅提高。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

通过(guo)完成音乐、图像、视(shi)频(pin)等数据之间(jian)的跨模(mo)(mo)态(tai)(tai)对齐(qi)，紫东太初(chu)2.0可(ke)处(chu)理音乐视(shi)频(pin)分析、三维导航(hang)等多模(mo)(mo)态(tai)(tai)关联应(ying)用应(ying)用需求，并可(ke)实现(xian)音乐、视(shi)频(pin)等多模(mo)(mo)态(tai)(tai)内容(rong)生成。

由此(ci)，紫东(dong)太初2.0打通了感知(zhi)、认(ren)知(zhi)乃至决策的(de)交互屏障，具有全模态能(neng)(neng)(neng)力的(de)涌(yong)现(xian)，使(shi)得(de)人工智(zhi)能(neng)(neng)(neng)进一(yi)步感知(zhi)、认(ren)知(zhi)世界，从而延(yan)伸出更(geng)加强大的(de)通用(yong)能(neng)(neng)(neng)力。

三、落地进展：助攻颅内手术，研判违规行为，溯源敏感信息

徐波说，紫东太初(chu)底(di)座大模型正赋(fu)能千行百业，包(bao)括(kuo)布匹纺织及(ji)缺陷检测、文旅导(dao)游(you)、柔性(xing)手(shou)术(shu)机器(qi)人(ren)、AI手(shou)语老师等。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

例如在医(yi)疗场景，基于紫东太初打(da)造的颅内手(shou)术(shu)多模(mo)态智(zhi)能助(zhu)(zhu)手(shou)可(ke)实(shi)现不同(tong)模(mo)态的高效协同(tong)与转换，尤其是视觉、触觉的跨模(mo)态融(rong)合，解决了机器人辅助(zhu)(zhu)手(shou)术(shu)中触觉缺失的国(guo)际(ji)性难题(ti)。

协和医院用到紫东(dong)太初2.0在(zai)全(quan)模(mo)态方面(mian)(mian)的推理(li)功能(neng)，去(qu)尝试在(zai)医疗诊断方面(mian)(mian)做一些有挑战(zhan)性的工(gong)作(zuo)，尤其是在(zai)心、脑(nao)、肾三(san)个罕见(jian)病(bing)中，利用多(duo)种(zhong)医疗模(mo)态和患(huan)者(zhe)病(bing)例特(te)点，生成拟诊讨论，在(zai)诊断、鉴别诊断和治(zhi)疗计划给出一些建议。

在交通(tong)场景(jing)，以前智(zhi)能系统更多关注(zhu)识(shi)别到比(bi)较常见(jian)的交通(tong)违(wei)规行为，但实(shi)(shi)(shi)际场景(jing)中会(hui)有很多细碎(sui)的违(wei)规行为，比(bi)如压实(shi)(shi)(shi)线、摩托(tuo)车不戴头盔、三轮车违(wei)法载人等(deng)等(deng)。只需输入对(dui)违(wei)规行为的文字描述，再给1~2张图片，紫东太(tai)初就能实(shi)(shi)(shi)现(xian)对(dui)违(wei)规行为认知级(ji)别的研判。

在互(hu)联网短视(shi)频(pin)场景中，有些短视(shi)频(pin)的标题和简介(jie)文本没有问题，但视(shi)频(pin)内(nei)容包(bao)含敏感(gan)信息。利(li)用多模态融合感(gan)知技术(shu)，可以对视(shi)频(pin)进行溯源，及(ji)时发(fa)现(xian)风险内(nei)容。

在大模型的(de)基础上，中科(ke)院也(ye)研发了紫东太初开放(fang)服务平(ping)台(tai)，以(yi)惠及更多用(yong)户(hu)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

结语：迈向通用人工智能的三条路径

徐波说，大(da)(da)模(mo)型(xing)(xing)成为人(ren)工智能发展的里程碑和分(fen)水岭，以ChatGPT为代(dai)表的“大(da)(da)算(suan)力+大(da)(da)数据+大(da)(da)模(mo)型(xing)(xing)”标志着通(tong)用人(ren)工智能时代(dai)的来临(lin)，大(da)(da)模(mo)型(xing)(xing)将实现对劳动力、资本(ben)等生产要(yao)素的智能替(ti)代(dai)和功能倍增，促(cu)进全要(yao)素生产率的提高。

人类的(de)学(xue)习和交互(hu)过(guo)程中(zhong)充满了多模(mo)态信(xin)息，包(bao)括自(zi)然语言(yan)、视觉、听觉、触觉、嗅觉/味(wei)觉、生理信(xin)号等等。以婴儿早期(qi)发育为例，它通(tong)过(guo)多种模(mo)态信(xin)息可以很容(rong)易地感(gan)知和学(xue)习世界(jie)，基于这一(yi)认(ren)识，紫(zi)东太初大模(mo)型(xing)从一(yi)开始走的(de)就是多模(mo)态技术路线。

据徐波(bo)分享，通过可自(zi)主进化通用(yong)人工智(zhi)能(neng)(neng)有(you)三(san)条路径：类脑智(zhi)能(neng)(neng)、信息智(zhi)能(neng)(neng)、博弈智(zhi)能(neng)(neng)。

中科院出手！1000亿参数全模态大模型发布，能看懂视频、绘画作曲、分析信号

他认为(wei)，目(mu)前全模态的(de)信息智(zhi)(zhi)能(neng)走得(de)更快，但它(ta)一定会(hui)吸(xi)纳类(lei)脑(nao)智(zhi)(zhi)能(neng)在极低功耗及演化(hua)机(ji)制(zhi)(zhi)方面的(de)优(you)势，也(ye)一定会(hui)吸(xi)纳博弈(yi)智(zhi)(zhi)能(neng)与环境交互产(chan)生自适应(ying)能(neng)力的(de)机(ji)制(zhi)(zhi)，融合起来，才(cai)是(shi)更强的(de)通用人工智(zhi)(zhi)能(neng)。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、五大能力详解，从生成音乐、看懂视频到推理分析

二、突破多项多模态关键技术，完成跨模态对齐

三、落地进展：助攻颅内手术，研判违规行为，溯源敏感信息

结语：迈向通用人工智能的三条路径

相关推荐