智东西(公众号:zhidxcom)
编辑 | GTIC
智东西4月(yue)10日报道,在刚刚落幕的(de)GTIC 2023中国(guo)AIGC创新峰会(hui)上,中国(guo)科学院(yuan)自(zi)动化(hua)研(yan)(yan)究(jiu)所研(yan)(yan)究(jiu)员&博士(shi)生导(dao)师、武汉人(ren)工(gong)智能研(yan)(yan)究(jiu)院(yuan)副院(yuan)长张家俊(jun)进(jin)行(xing)了主(zhu)题为《紫东太初(chu)大(da)模型——认(ren)识世(shi)界(jie),理解世(shi)界(jie)》,基于“紫东太初(chu)”大(da)模型,他(ta)解读了其是如(ru)何整合资源、并进(jin)一(yi)步探(tan)索通用人(ren)工(gong)智能产业化(hua)路径的(de)技术(shu)奥秘。
张家俊(jun)谈道,深度(du)学(xue)习(xi)预训练大模(mo)型(xing)效果(guo)不断提升(sheng)。当下,通过自监督学(xue)习(xi)条件下“大数据+大模(mo)型(xing)”方式(shi),多(duo)模(mo)态大模(mo)型(xing)初现“多(duo)专(zhuan)多(duo)能”,在小(xiao)样本学(xue)习(xi)、自然语言问答、跨模(mo)态生(sheng)成等方面快(kuai)速进步。大模(mo)型(xing)带动了创(chuang)新潮,但其能耗(hao)和(he)成本极高(gao),认知(zhi)能力与人相比仍有(you)很大差(cha)距。
“紫(zi)东太(tai)初”是中科院(yuan)自(zi)动化(hua)所团队(dui)推出的(de)全球首个(ge)千(qian)亿参数多(duo)模(mo)(mo)态大(da)模(mo)(mo)型(xing)。张家俊称(cheng),这一模(mo)(mo)型(xing)支(zhi)持(chi)Token级(ji)别、模(mo)(mo)态级(ji)别与样(yang)本级(ji)别的(de)多(duo)任务自(zi)监督学习,多(duo)模(mo)(mo)态弱(ruo)关联数据(ju)在512卡训练128天,同时实(shi)(shi)现(xian)模(mo)(mo)态理解(jie)与模(mo)(mo)态生(sheng)成(cheng)统一建(jian)模(mo)(mo)。“紫(zi)东太(tai)初”支(zhi)持(chi)以文搜图、以图生(sheng)音、以音生(sheng)图等跨模(mo)(mo)态检索(suo)与生(sheng)成(cheng)实(shi)(shi)例,比(bi)如(ru)输入一个(ge)真实(shi)(shi)图像,紫(zi)东太(tai)初就能生(sheng)成(cheng)个(ge)性化(hua)的(de)3D形象(xiang)。
目前,团队已推出了紫东太初开放服务平台1.0、紫东太初·洛神1.0 AIGC智(zhi)(zhi)能(neng)生(sheng)成平台,并整合产学研用(yong)各(ge)方资源(yuan)搭建人(ren)工智(zhi)(zhi)能(neng)开源(yuan)开放生(sheng)态(tai),探索(suo)通用(yong)人(ren)工智(zhi)(zhi)能(neng)产业化路(lu)径。
以下为张家俊的演讲实录:
大家(jia)上午(wu)好(hao)!我是(shi)自动化(hua)所张(zhang)家(jia)俊(jun)。
首先解释一(yi)下(xia),我(wo)(wo)(wo)个人从(cong)事的是自然语言处理(li)和机器(qi)翻译(yi)相(xiang)关(guan)(guan)的研究(jiu)。大(da)(da)模(mo)型(xing)来了之后(hou)(hou),实际(ji)上从(cong)2020年(nian)GPT-3出来之后(hou)(hou),我(wo)(wo)(wo)就参(can)与了自动(dong)化所(suo)发起的多模(mo)态大(da)(da)模(mo)型(xing)项(xiang)目,我(wo)(wo)(wo)主要负责语言这一(yi)块(kuai)。今天我(wo)(wo)(wo)作(zuo)为一(yi)个参(can)与者(zhe),跟大(da)(da)家(jia)分享一(yi)下(xia)自动(dong)化所(suo)大(da)(da)模(mo)型(xing)相(xiang)关(guan)(guan)的情况。
一、大模型正在从单模态有监督,迈向多模态自监督学习
大模(mo)型(xing)出现(xian)之前,基(ji)本(ben)上(shang)模(mo)型(xing)的(de)(de)能(neng)力(li)(li)都是单一的(de)(de),而(er)且(qie)需要(yao)依赖于大量(liang)的(de)(de)标注数据,而(er)且(qie)泛化能(neng)力(li)(li)非常差。
大(da)(da)模(mo)型来了之(zhi)后(hou),基于(yu)其大(da)(da)的数(shu)(shu)(shu)据、大(da)(da)的模(mo)型,很(hen)多种比如(ru)自(zi)然语言(yan)处理、语音识别、计算机视(shi)觉等任(ren)务得到(dao)了非常大(da)(da)的改善。我们(men)现(xian)在也(ye)会发(fa)现(xian),模(mo)型参数(shu)(shu)(shu)量也(ye)在不(bu)断提升(sheng)。我们(men)不(bu)知道GPT-4是多少(shao)参数(shu)(shu)(shu)量,但肯定是千(qian)亿以上,不(bu)会比ChatGPT还(hai)少(shao)。
不管是(shi)图像(xiang)还是(shi)文本(ben),单(dan)一(yi)模(mo)(mo)(mo)态大模(mo)(mo)(mo)型采(cai)用的(de)(de)是(shi)非(fei)(fei)常好、非(fei)(fei)常自(zi)然的(de)(de)训(xun)练(lian)目(mu)标(biao),也(ye)就是(shi)自(zi)监督训(xun)练(lian),图像(xiang)我们可以(yi)通过(guo)重构方(fang)(fang)式(shi),文本(ben)可以(yi)通过(guo)下一(yi)个单(dan)词预测的(de)(de)方(fang)(fang)式(shi)。而现实世界是(shi)一(yi)个多(duo)(duo)模(mo)(mo)(mo)态环境,在多(duo)(duo)模(mo)(mo)(mo)态环境当中(zhong)又该如何去进(jin)行(xing)训(xun)练(lian)或(huo)者(zhe)设(she)计它(ta)的(de)(de)目(mu)标(biao)?另一(yi)方(fang)(fang)面,多(duo)(duo)模(mo)(mo)(mo)态环境下如何从之前的(de)(de)“一(yi)专一(yi)能”方(fang)(fang)式(shi)过(guo)渡到“多(duo)(duo)专多(duo)(duo)能”的(de)(de)模(mo)(mo)(mo)型或(huo)者(zhe)框架(jia),现在实际上(shang)很(hen)多(duo)(duo)认知能力与我们期待的(de)(de)还很(hen)遥远。
正如刚(gang)才提到(dao)的,一(yi)方(fang)面从文本到(dao)多模态实(shi)际有很多挑战,但是我们(men)生(sheng)活在这样一(yi)个(ge)多模态的环境(jing)当中,所以我们(men)有必要去进行探索。

因此(ci),当2020年GPT-3发布之后,我们(men)就认为多模(mo)态必(bi)将是一个(ge)未(wei)来的(de)方向,我们(men)现在也(ye)看到GPT-4已经(jing)可以处理(li)图(tu)文(wen)输入(ru)和理(li)解输入(ru)。
二、具备部分类脑特性,初现“多专多能”
我们(men)当时(shi)(shi)在(zai)(zai)做(zuo)的(de)(de)时(shi)(shi)候,就一直在(zai)(zai)考虑应该(gai)如何设(she)计,将(jiang)不同模态(tai)(tai)(tai)放(fang)在(zai)(zai)一个模型下(xia)面进行(xing)学习。我们(men)提出(chu)了三个层级(ji)的(de)(de)多模态(tai)(tai)(tai)训练方式,比如从词源token级(ji)别、模态(tai)(tai)(tai)级(ji)别与样本级(ji)别,我们(men)也提出(chu)了语(yu)义弱关联多模态(tai)(tai)(tai)学习方式,这(zhei)样就可以进行(xing)多模态(tai)(tai)(tai)理(li)解和跨(kua)模态(tai)(tai)(tai)相互生(sheng)(sheng)成(cheng),进而(er)完成(cheng)各(ge)种(zhong)各(ge)样跨(kua)模态(tai)(tai)(tai)的(de)(de)任(ren)务,多模态(tai)(tai)(tai)的(de)(de)理(li)解、分类,跨(kua)模态(tai)(tai)(tai)的(de)(de)检(jian)索(suo),多模态(tai)(tai)(tai)之间的(de)(de)相互转换生(sheng)(sheng)成(cheng)。
这(zhei)些是可以(yi)完成的功能,那么(me)具体来说,我们(men)如何去实(shi)现的?
右下角(jiao)可(ke)以(yi)看到,它不(bu)是像GPT这种的单(dan)一(yi)(yi)解码器(Decorder),我们发(fa)现如果你(ni)的数据(ju)特别(bie)多、模型(xing)特别(bie)大的时候,像GPT-3.5或者GPT-4可(ke)以(yi)对(dui)文(wen)本数据(ju)和(he)图像数据(ju)进行(xing)统(tong)一(yi)(yi)融合。

但是(shi)当(dang)模(mo)型没有那(nei)么大,我们可能考虑模(mo)态之间(jian)融合时就需要设计不同(tong)的策(ce)略。
所以当时我们提出了对(dui)不同的模(mo)(mo)态(tai)进行分别(bie)编码,同时在上一层设计(ji)一个(ge)跨模(mo)(mo)态(tai)编码。其余各(ge)自(zi)的模(mo)(mo)态(tai)比如文本模(mo)(mo)态(tai)、图(tu)像(xiang)模(mo)(mo)态(tai)、语言模(mo)(mo)态(tai)分别(bie)有一个(ge)解码器。
这样的(de)模式看起来像是(shi)(shi)一(yi)个集(ji)成(cheng)模型,但是(shi)(shi)它有一(yi)个非常好的(de)地方是(shi)(shi)你(ni)可(ke)以通过不(bu)同的(de)模态(tai)进行分(fen)别优化,且(qie)不(bu)影响其(qi)他模态(tai)的(de)功(gong)能。我们针对(dui)此(ci)做了(le)一(yi)些优化,语(yu)言方面,我们可(ke)以直(zhi)接优化语(yu)言底(di)部的(de)解码器,不(bu)影响文本和图像的(de)分(fen)辨结果。
多模(mo)态的(de)(de)通用模(mo)型针(zhen)(zhen)对任(ren)(ren)何任(ren)(ren)务的(de)(de)处(chu)理方式(shi)都相(xiang)同,但实(shi)际上不(bu)同的(de)(de)任(ren)(ren)务应(ying)该有针(zhen)(zhen)对性地去处(chu)理。因(yin)此我(wo)(wo)们提出了任(ren)(ren)务感(gan)知的(de)(de)训练(lian)方式(shi)。如果大家(jia)用过(guo)ChatGPT就(jiu)会发现,不(bu)同的(de)(de)提示会产生(sheng)不(bu)同的(de)(de)结果。那么,我(wo)(wo)们能不(bu)能针(zhen)(zhen)对不(bu)同的(de)(de)样(yang)本(ben)生(sheng)成合适(shi)这个样(yang)本(ben)的(de)(de)提示?所以我(wo)(wo)们生(sheng)成一(yi)个样(yang)本(ben)级的(de)(de)提示学习方式(shi),可以面向特定样(yang)本(ben)生(sheng)成适(shi)应(ying)这个样(yang)本(ben)的(de)(de)提示。
在语(yu)(yu)音(yin)(yin)层面,我们可(ke)以只优化语(yu)(yu)音(yin)(yin),例如将语(yu)(yu)种识别、端点检(jian)测各种语(yu)(yu)音(yin)(yin)相(xiang)关的功能融合在一个任务下,同时语(yu)(yu)音(yin)(yin)的优化又不(bu)影响(xiang)文本、图像(xiang),优化之后可(ke)以得到语(yu)(yu)音(yin)(yin)方面非常好的结果。
在视(shi)觉方面(mian)也是一样。例如(ru)针对(dui)视(shi)觉如(ru)何进(jin)行(xing)无监督(du)(du)学习,我们提出了(le)视(shi)觉掩码(ma)自监督(du)(du)模型,一方面(mian)是通过(guo)(guo)注意力动(dong)态掩码(ma)保留关键区域,第(di)二(er)步通过(guo)(guo)解码(ma)恢(hui)复掩码(ma),和(he)语言(yan)里面(mian)的BERT非常相似。

经过这样简(jian)单的(de)操作之(zhi)后,我们(men)就(jiu)可以(yi)在很(hen)多任务(wu)上得到最(zui)好的(de)性能,比如在目标检测(ce)和实例(li)分(fen)割上,就(jiu)可以(yi)超越任务(wu)特定(ding)的(de)预训(xun)练模型(xing)精度(du)。
在不同(tong)的(de)模态(tai)仿真训练中,当模型(xing)特别大时,有模态(tai)信息(xi)(xi),还有大量参数,如何保证它快速、稳(wen)定地学习是非常关键的(de)因(yin)(yin)素。因(yin)(yin)此,我们在这种(zhong)学习过程中提出了一些(xie)方案,例如基于空间(jian)通道稀疏化的(de)多模态(tai)大模型(xing),这种(zhong)方案可(ke)以将空间(jian)信息(xi)(xi)和(he)通道信息(xi)(xi)分割开来(lai),就可(ke)以得到(dao)优化20%到(dao)35%的(de)浮点运算(suan)。
此(ci)外(wai),在稳(wen)定性(xing)(xing)方面,我们在训练(lian)时发现当批处(chu)理变得特别大之(zhi)(zhi)后,学(xue)习(xi)率(lv)的(de)线(xian)性(xing)(xing)尺度(du)(du)(du)原则就会失效(xiao)。针对这个问(wen)题,我们提出了周期(qi)性(xing)(xing)矩衰减优化的(de)方案。学(xue)习(xi)率(lv)通过(guo)逐层动态调整(zheng),周期(qi)性(xing)(xing)清(qing)零梯(ti)(ti)度(du)(du)(du)信息,摆(bai)脱历史梯(ti)(ti)度(du)(du)(du)影响,从(cong)而加(jia)速(su)网络快速(su)收敛(lian)(lian)。收敛(lian)(lian)的(de)速(su)度(du)(du)(du)相比之(zhi)(zhi)前能(neng)提升30倍。
这样的(de)方(fang)法一(yi)方(fang)面可以保证(zheng)训练(lian)的(de)快速,另一(yi)方(fang)面保证(zheng)训练(lian)的(de)稳定性(xing)。
很多时候,当我们在国产化的平台上训练,比如基于昇腾多维混合并行的训练,很多时候我们会和(he)昇思MindSpore共同研发,因为2021年,MindSpore的(de)很多功能没有十分(fen)完善,在其对大模型的(de)较好(hao)支(zhi)持(chi)下(xia),我(wo)们在训练时可(ke)以在这个(ge)基(ji)础上去不断(duan)优化算子。
同时,大模型在预训练(lian)阶段学习(xi)到(dao)了很多先验(yan)的(de)知(zhi)识(shi),这(zhei)些先验(yan)的(de)知(zhi)识(shi)对于长尾现(xian)象有很多辅助作(zuo)用,比如可以(yi)(yi)将其(qi)迁移到(dao)长尾数(shu)据集,可以(yi)(yi)更容易学习(xi)尾部的(de)图像(xiang)类(lei)别特(te)征表述。
经过文本、语音、视觉上的针对性优化(hua)之后,我们(men)很多千亿三模(mo)态(tai)大模(mo)型在跨模(mo)态(tai)检索(suo)、视觉问答(da)、图像语义(yi)描(miao)述等(deng)上实现非常好(hao)的性能,这些任务在2021年基(ji)本达到了State-of-the-art(最高水准的)。
例(li)如在(zai)2021年,基于预训练模(mo)型的视觉描(miao)述(shu)竞赛中(zhong),紫东太初(chu)大(da)模(mo)型得(de)(de)到第一(yi)名,并且在(zai)大(da)规(gui)模(mo)视频场景(jing)理解比赛中(zhong)也获得(de)(de)第一(yi)名。
下图是一(yi)些案例,我们训(xun)练(lian)多模(mo)态大模(mo)型之后(hou)会产生一(yi)个什么样的结果(guo)。

刚(gang)才我们(men)提到(dao)不仅有文(wen)本、图(tu)像,我们(men)知道目前大多数呈现出(chu)来的(de)(de)是文(wen)生(sheng)图(tu)或图(tu)片(pian)、文(wen)本之间的(de)(de)模型,那么我们(men)把语(yu)音(yin)加进去,可以(yi)直(zhi)接让没(mei)有声音(yin)的(de)(de)图(tu)片(pian)和视频生(sheng)成(cheng)语(yu)音(yin)播报(bao)。例如,一(yi)个(ge)没(mei)有声音(yin)的(de)(de)图(tu)像或者视频可以(yi)直(zhi)接生(sheng)成(cheng)一(yi)键语(yu)音(yin)播报(bao)。这(zhei)看起来似乎是直(zhi)接从图(tu)像到(dao)文(wen)本再(zai)到(dao)语(yu)音(yin),实(shi)际上我们(men)跳过了文(wen)本环(huan)节(jie),直(zhi)接由(you)(you)图(tu)像或者视频生(sheng)成(cheng)语(yu)音(yin),也可以(yi)由(you)(you)语(yu)音(yin)生(sheng)成(cheng)图(tu)像,或者由(you)(you)语(yu)音(yin)生(sheng)成(cheng)视频。
以文生(sheng)图为例(li),很多模(mo)型都有这样的(de)(de)能(neng)力,这里简单(dan)展示(shi)一下我们也有这样的(de)(de)能(neng)力,可以生(sheng)成风格多变的(de)(de)文生(sheng)图能(neng)力。
我们从2020年10月开(kai)始做(zuo)这件(jian)事情,2021年7月发布了(le)第(di)一版多模态大(da)模型。2022年,“紫东太初(chu)”获得(de)大(da)规模预训练模型优(you)秀应(ying)用案(an)例奖(jiang)(jiang),中国算力大(da)会(hui)先(xian)锋案(an)例奖(jiang)(jiang),以及世(shi)界(jie)人工智能大(da)会(hui)SAIL奖(jiang)(jiang),也是世(shi)界(jie)人工智能大(da)会(hui)的最高奖(jiang)(jiang)。
三、打造开放服务平台1.0,一键完成采集、训练、部署
刚才介绍了(le)多模态(tai)(tai)大模型(xing)的(de)(de)研制过程和各个(ge)模态(tai)(tai)针对性的(de)(de)优化,以(yi)及优化之后(hou)(hou)能达(da)到(dao)的(de)(de)水平(ping)。当达(da)到(dao)这(zhei)个(ge)水平(ping)之后(hou)(hou),我们希望基(ji)于此开发一套服务平(ping)台(tai),让这(zhei)样的(de)(de)模型(xing)能够(gou)服务于千家万户(hu),让多模态(tai)(tai)模型(xing)的(de)(de)利用(yong)和部署(shu)变得非常简便。
因此,我(wo)们(men)依(yi)托紫东(dong)太初大(da)模型,开发(fa)了紫东(dong)太初服务平台(tai),现在是1.0阶段。我(wo)们(men)希望这个(ge)服务平台(tai)能够一键完成数据采(cai)集、模型训练到(dao)模型的(de)部署。这样的(de)话,可以(yi)大(da)幅节省人力(li),从(cong)几个(ge)月的(de)训练时间缩(suo)短到(dao)几天、一周的(de)训练时间。

有了智能化的标(biao)注平台,用户(hu)不(bu)仅可以在(zai)上面进行标(biao)注,而(er)且可以根据模型(xing)来不(bu)断迭代。有了模型(xing)之后(hou),我们(men)可以根据训练模型(xing)来发现还需要标(biao)注哪(na)些样(yang)本,通(tong)过这样(yang)的主动学(xue)习,可以加(jia)快数据的标(biao)注过程(cheng)。
为了(le)实现(xian)一键微调,开(kai)发者可(ke)以(yi)选(xuan)(xuan)择(ze)各(ge)(ge)种(zhong)各(ge)(ge)样的开(kai)发工具,可(ke)以(yi)选(xuan)(xuan)择(ze)主(zhu)流的开(kai)发平台,也(ye)可(ke)以(yi)选(xuan)(xuan)择(ze)异构资源(yuan)的统筹(chou)(chou),我(wo)们(men)可(ke)以(yi)统筹(chou)(chou)如昇腾、GPU等各(ge)(ge)种(zhong)异构算力(li),同时可(ke)以(yi)支(zhi)持(chi)分(fen)布式(shi)训练,并且训练过程还可(ke)以(yi)可(ke)视化。我(wo)们(men)支(zhi)持(chi)可(ke)视化建模、交(jiao)互式(shi)建模、自动学习、自定义任务等的可(ke)视化。
对于(yu)一(yi)键部(bu)署(shu),这(zhei)个平台可以覆盖数据(ju)(ju)的(de)(de)搜集、模(mo)型的(de)(de)训练再(zai)到模(mo)型的(de)(de)部(bu)署(shu)。实际上(shang)就(jiu)(jiu)是(shi)说(shuo),我们可以先导(dao)入训练任务(wu),然(ran)后再(zai)把本(ben)地(di)的(de)(de)数据(ju)(ju)或者相关的(de)(de)信息进行导(dao)入,最后选择相关的(de)(de)模(mo)型再(zai)进行微调,就(jiu)(jiu)能(neng)得到最终(zhong)适应(ying)(ying)用(yong)户目(mu)标或者任务(wu)的(de)(de)应(ying)(ying)用(yong)部(bu)署(shu)。

并(bing)且这一服务平台里有很多语音(yin)、文本、图像、视频的算法(fa)库,不需(xu)要用(yong)户进(jin)行(xing)训练(lian),可以直接拿来集成使用(yong)。
在这个(ge)平台(tai)(tai)上(shang),我们最近开发(fa)了洛神1.0图(tu)文生成(cheng)(cheng)(cheng)(cheng)平台(tai)(tai)。洛神1.0可(ke)以替(ti)代传统的数(shu)字生成(cheng)(cheng)(cheng)(cheng)技术,实现数(shu)字人的快速批量生成(cheng)(cheng)(cheng)(cheng)。它可(ke)以完成(cheng)(cheng)(cheng)(cheng)自动(dong)驱动(dong)和用(yong)户之间互动(dong),能够帮助用(yong)户完成(cheng)(cheng)(cheng)(cheng)数(shu)字人的自动(dong)化生成(cheng)(cheng)(cheng)(cheng)。
下面是一(yi)(yi)个例(li)子(zi),比如它可(ke)以(yi)进行(xing)个性(xing)化虚拟人生(sheng)(sheng)成(cheng)。开发者选择(ze)一(yi)(yi)个形象(xiang)之后,就(jiu)可(ke)以(yi)通(tong)过语音方式(shi)驱动生(sheng)(sheng)成(cheng)视频。而且可(ke)以(yi)按照自(zi)己(ji)的(de)需求自(zi)定义,选择(ze)一(yi)(yi)个形象(xiang)之后,你(ni)可(ke)以(yi)将其(qi)变(bian)成(cheng)三维(wei)形象(xiang),再选择(ze)其(qi)它的(de)形象(xiang)进行(xing)融合,将文本或者需要生(sheng)(sheng)成(cheng)的(de)内容输入(ru)进去之后就(jiu)会(hui)按照你(ni)的(de)需求进行(xing)相(xiang)应(ying)的(de)生(sheng)(sheng)成(cheng)。现在数字人进行(xing)简单的(de)播报越来越真实化。

在(zai)(zai)算法研(yan)究、模型开发和平台研(yan)制(zhi)基础上,我们(men)在(zai)(zai)推动多模态(tai)产业(ye)联(lian)盟(meng)的成立,目前(qian)在(zai)(zai)紫东太初框架下(xia)面有41家成员,我们(men)希(xi)望(wang)整合产学(xue)研(yan)用各(ge)方资(zi)源(yuan),来打造多模态(tai)人工智能行业(ye)应用,希(xi)望(wang)探索通用人工智能产业(ye)化的道路。
四、已应用于医疗、文旅、公益等,打造差异化AGI道路
我(wo)们为模型打(da)造了开发开放(fang)平(ping)台(tai),同(tong)时我(wo)们已经(jing)用(yong)这样的模型在各(ge)种各(ge)样的下游任务当(dang)中(zhong)得到了非(fei)常好的应(ying)用(yong),比(bi)如(ru)在智(zhi)慧医疗、社会公益、智(zhi)慧文(wen)旅等方(fang)面已经(jing)有了各(ge)种各(ge)样的应(ying)用(yong)。
这(zhei)里面(mian)因(yin)为时间关系就(jiu)不一(yi)一(yi)介绍,我介绍其中的一(yi)个应用,就(jiu)是手语教考一(yi)体机。
这是一个非常(chang)有意(yi)思的(de)应(ying)用,例如《新闻联播(bo)》、《新闻30分》节目(mu)的(de)右(you)下角(jiao)都会(hui)(hui)有手语形象,但很多时(shi)候聋哑群体或者听障(zhang)群体会(hui)(hui)有歧义(yi),没办法知道手势(shi)代(dai)表(biao)什(shen)么意(yi)思,那如果我们给(ji)出(chu)手势(shi)的(de)同时(shi)给(ji)出(chu)多模(mo)态的(de)图像视频展示,这样(yang)立马就能够(gou)让听障(zhang)人士(shi)感知到并快速发(fa)现他应(ying)该在说什(shen)么,在表(biao)达什(shen)么样(yang)的(de)含义(yi)。这样(yang)多模(mo)态的(de)应(ying)用是非常(chang)有意(yi)思,也是非常(chang)好的(de)方(fang)面。

还有在智慧交通、智能制(zhi)造方面的应用,我(wo)们打(da)造了一个文(wen)旅多(duo)模态场景“南(nan)宋御街(jie)”,用户可以通过(guo)VR方式和(he)各(ge)种各(ge)样的历(li)史(shi)(shi)环境、历(li)史(shi)(shi)人(ren)物进行交互。
我们也会把它应用(yong)到媒体(ti),特别是多(duo)媒体(ti)内容的安全审查上(shang)面。
这两(liang)年来我们(men)的(de)模型(xing)也得到(dao)央视新闻、人民网等(deng)媒体的(de)一系列报(bao)道,我们(men)也还在(zai)不断努力。可以看到(dao)GPT正在(zai)不断地突破人们(men)的(de)想象,从GPT-4到(dao)周老师(shi)刚刚介绍的(de)GPT和各(ge)种各(ge)样插件的(de)融合。
我(wo)们(men)(men)在不断(duan)追赶(gan),不断(duan)打造(zao)差异化的(de)通向通用(yong)人工智能的(de)道路,目(mu)前而言(yan),可能我(wo)们(men)(men)的(de)模型不是特别(bie)大(da)(da),不像GPT-4那么(me)通用(yong),但我(wo)认(ren)为我(wo)们(men)(men)应(ying)该追求一个开放(fang)的(de)环境(jing),我(wo)们(men)(men)希(xi)望(wang)在各种各样的(de)产业当中得到更(geng)好的(de)应(ying)用(yong),希(xi)望(wang)和大(da)(da)家(jia)一起推动通用(yong)人工智能的(de)发展。
谢谢大家!
以上是张家俊演讲内容的完整整理。