智东西(公众号:zhidxcom)
作者 | GenAICon 2024

2024中国生成式AI大(da)(da)(da)会于(yu)4月(yue)18-19日在北京(jing)举行(xing),在大(da)(da)(da)会第一(yi)天(tian)的(de)主会场大(da)(da)(da)模(mo)型专场上,云天(tian)励(li)飞“云天(tian)天(tian)书”大(da)(da)(da)模(mo)型技术(shu)负责人余晓(xiao)填以《多模(mo)态大(da)(da)(da)模(mo)型技术(shu)演进与落地应用探(tan)索》为题发表演讲。

2022年底,ChatGPT横空出世,搅起了AI行业的发展热潮。2024年初,文生视频大模型Sora推出,AGI(通用人工智能)发展驶入快车道。余晓填以Sora的发布以及美国利用脑机接口帮助瘫痪病人实现自主行动等案例,展示了AI技术惊人的迭代速度及其潜力。余(yu)晓(xiao)填认为,大(da)(da)模型技术从前几年的(de)崭露头角,发(fa)展到现在的(de)如日中天,人(ren)类已然(ran)迈入了(le)AI的(de)新时代,并朝着AGI的(de)大(da)(da)道全速(su)前进。

在AI蓬勃发展的新时代,大模型技术成为AI领域的焦点之一。以Transformer结构为核心的大型模型被认为是一种高效、可扩展的学习器,能够在短时间内对海量数据进行学习和信息压缩。然而,大模型技术的发展仍旧面临挑战。其中突出问题之一便是数据支持的不足

如何克服这一难题?余晓填认为,解决的关键在于顶尖AI人才的培育,顶(ding)级的(de)人(ren)才、专家才是(shi)支撑(cheng)着大模(mo)型(xing)技术快速发展的(de)基石。

多模态大模型作(zuo)为(wei)大模(mo)型(xing)(xing)技术(shu)的重要发展方向,也引起了各界(jie)的广泛(fan)关(guan)注(zhu)。余晓(xiao)填提到(dao),多模(mo)态大模(mo)型(xing)(xing)信息压(ya)缩策(ce)略主要分为(wei)两种(zhong)类型(xing)(xing):分阶对齐(qi)结构和端到(dao)端对齐(qi)结构。前者(zhe)利(li)用文本数据的广泛(fan)覆盖优势,加速学习收敛速度;后(hou)者(zhe)则通(tong)过一次性对各种(zhong)信息进行交叉并发,实现(xian)高(gao)效的信息压(ya)缩。然(ran)而(er),多模(mo)态大模(mo)型(xing)(xing)的落(luo)地应用面临诸多挑战。

在此背景下,云天励飞又将如何打破大模型应用的“三角约束”,为大模型技术在(zai)各行各业的应用提供新的可能?

以下为余晓填的演讲实录:

在梳理大模型技术近期的重要事件中,如大模型的发布、算力的提升,我看到了两点重要信:第(di)一,AI技(ji)术的迭代速(su)度(du)惊人,世界(jie)各地(di)的科技(ji)巨头(tou)均在(zai)竞相(xiang)争(zheng)夺领先地(di)位;第(di)二,以大(da)模(mo)型技(ji)术为核(he)心(xin)的AI领域正在(zai)经历前所未有的快(kuai)速(su)发展,并且这种加速(su)度(du)正持续提升。

我们梳理了三个可视化的例子

首先,去年特斯拉在(zai)其投资者日公开展示了(le)一(yi)个视频,展示了(le)一(yi)个人(ren)(ren)形机(ji)器人(ren)(ren)正在(zai)尝试组(zu)装机(ji)器。这预示着我(wo)们可(ke)能即将迈入机(ji)器人(ren)(ren)制造机(ji)器人(ren)(ren)的(de)时代。

其次,最近OpenAI发(fa)布了(le)名为Sora的(de)(de)项(xiang)目(mu),并(bing)与Figure合作(zuo),开发(fa)了(le)具(ju)备(bei)人(ren)形外观的(de)(de)智能机器(qi)人(ren)。这(zhei)种机器(qi)人(ren)具(ju)备(bei)了(le)高(gao)度交(jiao)互性(xing),能够与人(ren)类(lei)进行流畅(chang)的(de)(de)沟通,并(bing)执行人(ren)类(lei)的(de)(de)指令(ling)。

另外,上个月,美(mei)国首例利用(yong)脑机接口(kou)帮助瘫(tan)痪的(de)(de)(de)病人已(yi)经开始使用(yong)自(zi)己的(de)(de)(de)意(yi)念来发推文,甚至在半(ban)夜使用(yong)意(yi)念玩(wan)游戏(xi)。这些令人震惊的(de)(de)(de)应用(yong)展示了(le)AI技术带来的(de)(de)(de)巨大潜力,表(biao)明(ming)人类(lei)已(yi)经迈入了(le)AI的(de)(de)(de)新时代。

一、从ChatGPT到Transformer,大模型在信息压缩与学习中的演进

ChatGPT的(de)(de)(de)根(gen)基是围绕着Transformer结构(gou)的(de)(de)(de)演化,但(dan)是,什么是Transformer?我们认为,它(ta)是一(yi)个很(hen)高效(xiao)的(de)(de)(de)、可扩展(zhan)的(de)(de)(de)海量数据的(de)(de)(de)学习器。简单来(lai)说,它(ta)是一(yi)种信息压缩(suo)机制,能(neng)够在短时间(jian)内将(jiang)人类(lei)历史上的(de)(de)(de)所有知识进行压缩(suo),并从中发现语言的(de)(de)(de)规律。

GPT的结构并不偏好任何特定的领域或模态,它能够对各种知识和多种模态进行压缩。这种信息(xi)压缩(suo)的关键条件包括巨大的参数规模、强(qiang)(qiang)大的计算能力(li)以及海量的数据支(zhi)持(chi)。参数规模已(yi)经发(fa)展到(dao)了千亿或(huo)万亿级别。在计算能力(li)方面,英伟达一直在为其提供强(qiang)(qiang)大支(zhi)持(chi)。

然而,从数据层面,一些学者表示,以后数据将不足以支撑大模型的训练,那这时候怎么办?可能是采用数据合成,用大模型去制造更多的(de)数据进行博弈(yi)的(de)学习。

我们认为大模型的一个核心根基人才,顶尖的AI人(ren)才(cai)。这种(zhong)人(ren)才(cai)可以把大(da)参数、大(da)算(suan)力、大(da)数据有机地结合在(zai)一起,形成真(zhen)正(zheng)算(suan)法(fa)结构下(xia)的高(gao)效信(xin)息压缩,而这种(zhong)顶级的专家人(ren)才(cai)则是(shi)支撑(cheng)着美国大(da)模型(xing)技术快速(su)发展的基石。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

可以看到,大模型技术的发展以及大模型的能力,归纳起来就是海量信息的压缩,并学习到其中的统计规律。目前在文本方面,我们可以把海量的数据进行压缩,得到了文本的规律,形成了语言的理解和生成。视频、图像、声音等也可以通过海量的数据进行压缩,训练数百万小时的视频,最终用眼睛去看和理解这个世界,甚至在未来进行多种模态的数据交互,这时候,自然而然就会引出来下一个真正要讨论的主题——多模态大模型

二、多模态大模型如何做信息压缩?探索分阶对齐结构、端到端对齐结构

多模态大模型是怎么去做信息压缩的?我们认为有两大类型

第一大类型,分阶的对齐结构。第一个阶(jie)段(duan)先(xian)去(qu)压缩(suo)文本的信(xin)(xin)息(xi),第二阶(jie)段(duan)再(zai)压缩(suo)其它的信(xin)(xin)息(xi),其它的信(xin)(xin)息(xi)包括视(shi)觉、声音等。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

为什么要这么做?因为文本的数据覆盖面更广,全量,而且是高知识量的。以此为基础,就可以获得更快的学习收敛速度。这(zhei)里可以类(lei)比人(ren),人(ren)学习的(de)过程最重要的(de)三大(da)(da)来源(yuan):说(shuo)话(hua)、眼睛看世界、耳(er)朵听东西(xi),这(zhei)三个信息(xi)可能(neng)最开始要引导的(de)教育(yu)过程,是引导他讲东西(xi),这(zhei)也(ye)就是分阶段对(dui)齐的(de)核心(xin)要义。从图(tu)来看,LLM Backbone以语言对(dui)齐为核心(xin),分阶段去做多模态大(da)(da)模型的(de)信息(xi)压缩,找到其中的(de)信息(xi)系规律。

第二大类型,端到端对齐结构。就(jiu)是对(dui)不同(tong)模态的(de)(de)数据同(tong)时(shi)学习,同(tong)时(shi)输入图(tu)像、文本各(ge)种各(ge)样的(de)(de)信息,直(zhi)接把所(suo)有(you)(you)信息交叉并发,把所(suo)有(you)(you)的(de)(de)信息进(jin)行压缩,抽(chou)取里(li)面(mian)的(de)(de)规律,最终达到(dao)理解(jie)这个(ge)世界,去驱动跟这个(ge)世界进(jin)行交互。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

三、解读大模型技术发展三阶段,场景反哺技术阶段仍面临挑战

大(da)模型能(neng)够帮(bang)我(wo)们(men)做什么?我(wo)们(men)很清(qing)楚(chu)大(da)模型技术只是一(yi)个工具,从技术的(de)角度(du)去(qu)看,它帮(bang)我(wo)们(men)把很多信息压(ya)缩,更高效地找出其中(zhong)的(de)规律。大(da)模型要(yao)(yao)体现出价值,就要(yao)(yao)落实到(dao)各行(xing)各业(ye)、各种业(ye)务(wu)的(de)闭环应用里(li)面(mian)去(qu)。

借鉴AI技术发展的路径,我们认为大模型技术发展定义也有三个阶段。这三个阶段实际上(shang)也是技(ji)术跟数(shu)据或者算法的关(guan)系。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

一开始,我们设计算法时通常会使用少量数据进行验证,这被称为技术找场景。在第二阶段,场景反哺技术,我们则采用更多数据来提升算法和技术的能力。第三阶段,场景找技术,即所有应用和需求(qiu)都(dou)能(neng)通过同一个算法、模型(xing)来解决,这标(biao)志(zhi)着我们迈(mai)入AGI时代的大道。

那么,技(ji)(ji)术找场(chang)景(jing)现在(zai)的进展(zhan)如(ru)何(he)?我们已经(jing)走(zou)完了(le)技(ji)(ji)术找场(chang)景(jing)在(zai)大(da)模(mo)(mo)型(xing)技(ji)(ji)术发展(zhan)应(ying)(ying)用(yong)的这(zhei)(zhei)段路(lu)。许多(duo)应(ying)(ying)用(yong),例如(ru)智能(neng)问(wen)答、文生成图以及像ChatGPT这(zhei)(zhei)样的生成式大(da)模(mo)(mo)型(xing)单点应(ying)(ying)用(yong),已经(jing)验(yan)证(zheng)了(le)大(da)模(mo)(mo)型(xing)技(ji)(ji)术的应(ying)(ying)用(yong)和算法成熟度(du)。

目前,我们正处于第二阶段,即(ji)场(chang)景反(fan)哺技术的(de)(de)阶段。我们可以看到,多模(mo)(mo)态大模(mo)(mo)型(xing)的(de)(de)落地(di)还有很长一段路要走,其困(kun)难之(zhi)处在于行(xing)业(ye)场(chang)景的(de)(de)复杂性。尽管我们希望在各行(xing)各业(ye)中(zhong)广泛应(ying)用(yong)大模(mo)(mo)型(xing),但(dan)行(xing)业(ye)场(chang)景的(de)(de)知识深度对大模(mo)(mo)型(xing)的(de)(de)能力(li)提出了严峻的(de)(de)考验,仍存在着参差不齐、远未满(man)足需求(qiu)的(de)(de)情况。

因此,我(wo)们需要积极推动多模(mo)态大(da)模(mo)型技术的落地,并(bing)应对挑战寻(xun)找(zhao)解决(jue)方案。

四、如何打破大模型应用的“三角约束”?云天励飞提出“算法芯片化”

我们要考虑主要的变量是什么?从智慧城市中的城市治理、智慧交通,我们归纳出,要在多模态大模型进行落地变现,应注意三个变量的“三角约束”。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

如今(jin),对(dui)话系统备受关注,其精度已经(jing)接(jie)近人类,跟人没有(you)差(cha)异,但在对(dui)垂域的深(shen)度支持和(he)行业(ye)的价值,大模型没法(fa)去做。在真实生产环境中,很多任(ren)务(wu)是很复杂的,由于对(dui)垂域专业(ye)知识的不足,以及数据优化结构的增加,大模型面(mian)临(lin)着成本和(he)效率方面(mian)的挑战。

因此,我们需要在精度、成本效率之间寻找平衡点,以推动多模态大模型技(ji)术在对(dui)话系(xi)统(tong)中的(de)落(luo)地应用。我(wo)们相(xiang)信(xin),我(wo)们正在积极解(jie)决(jue)这一问题,并与AI领域的(de)同(tong)仁一道不断推进技(ji)术进步。

云天励飞是如何突破“三角约束”的?我(wo)来分享一(yi)下我(wo)们的解(jie)决(jue)方案。

自2014年云天励飞建立之初,我们就定义了“算法芯片化”的技术(shu)发展路(lu)径。算(suan)法芯(xin)片(pian)化(hua)不(bu)仅仅是简单地将算(suan)法应用于芯(xin)片(pian),还需要高度专(zhuan)业的人(ren)才,需要专(zhuan)家人(ren)才对算(suan)法有(you)深刻理解,对不(bu)同场景和行业数(shu)据有(you)专(zhuan)业认(ren)知,并能(neng)够通过协同设计算(suan)法与场景,最终体现在芯(xin)片(pian)侧、算(suan)子(zi)侧,包括(kuo)推(tui)进可伸(shen)缩(suo)的指令集、优(you)化(hua)计算(suan)架构以及工具链的优(you)化(hua)。

这样的技术(shu)支持使得我们能够(gou)应用包括Transformer、各种深度学习(xi)算法框(kuang)架等多种算法。最重(zhong)要的一点,它的成(cheng)本、效率是制约多模(mo)态大模(mo)型(xing)落地的关键。

过去打造的云天天书多模态大模型包含了几个维度,包括语言、CV、文本问答、目标检测分割等。这些大模型的落地采取了分层解耦的策略,通过设计算法芯片化平台,我们构建了一个通用大模型。这个通(tong)用(yong)大模型具备基(ji)础能(neng)力(li),它在(zai)行业(ye)知(zhi)识和(he)场(chang)景经验(yan)方面可能(neng)只达到(dao)60到(dao)70分,但在(zai)通(tong)用(yong)性方面可以达到(dao)80分、90分甚至满分。

再往上走就是行业大模型、场景大模型,要在(zai)具(ju)体的场(chang)景业务里面拿(na)到90分,需(xu)要低成本的算(suan)子层(ceng)面优化,并通过与边缘侧数据的高效迭代训练来满足客户(hu)需(xu)求。

过去十年,云天天书算法研究经历了长时间的迭代发展。从2017年之前研究以ResNet卷积神经网络的深度学习,到Transformer结构起来之后,我们第一批启动了Transformer结构适配整个算法芯片化的平台。去年公司上市后,我们加大了对大模型技术的研发投入,并持续跟进海内外的先进技术。我们成功地研发了从百亿级到千亿级的语言多模态大模型。

上个月,我们发布了云天天书3.5V的(de)大模型。在(zai)图(tu)文理解、生成以及问(wen)答等方面(mian),这些模型表现非常可观。在(zai)语言大模型方面(mian),我们(men)去年已经多次获得了权威榜单的(de)第一名。

五、云天励飞是怎么取得可观成绩的?背后有4项关键技术

我们如何实现这些可观的成绩?尽管我们面临了诸多挑战,但我们总结归纳后认为有四个关键点值得分享:

第一,解决成本的问题。精度可(ke)以(yi)通过(guo)数(shu)据(ju)堆积(ji)解决,在真正落地的(de)时候,推(tui)理(li)的(de)成本是绕不过(guo)去(qu)的(de),我们的(de)核心要义(yi)是解决高效的(de)推(tui)理(li)引擎问题。

为此,我们自主研发了Space推理引擎,它与算子层高效融合,实现了无损的推理,并将推理速度提升了50%以上。具体来说,像生(sheng)成式(shi)大模型,通(tong)常是进(jin)行单字(zi)符(fu)的向前(qian)预测(ce),但我(wo)们(men)想办法一次性(xing)预测(ce)多个字(zi)符(fu),同时(shi)保持(chi)无损(sun)、精度不(bu)变。在(zai)这种情况下,我(wo)们(men)通(tong)过对(dui)算(suan)法结构进(jin)行改(gai)进(jin),实(shi)现了一次性(xing)预测(ce)多个词条,从而提升了推(tui)理效率。

第二,降低核心成本。我们致力于提高效率和减少GPU存储需求,通过研究分布式切块,包括自适应的稀疏缓存解码等技术,我们成功将GPU需求降低了50%

第三,优化训练技术。优(you)化训(xun)练(lian)是大(da)模(mo)型(xing)落地的(de)(de)(de)根基,所有的(de)(de)(de)应用(yong)都在这个(ge)根基上长起(qi)来。我们研发了一(yi)套(tao)可伸缩的(de)(de)(de)大(da)模(mo)型(xing)训(xun)练(lian)技术(shu),简单来说,训(xun)练(lian)一(yi)个(ge)大(da)模(mo)型(xing),这个(ge)大(da)模(mo)型(xing)要考虑(lv)如果扩(kuo)(kuo)展(zhan)它的(de)(de)(de)参(can)数或(huo)者说扩(kuo)(kuo)展(zhan)它的(de)(de)(de)规模(mo)、优(you)化它的(de)(de)(de)结构,能(neng)不能(neng)复用(yong)原(yuan)有的(de)(de)(de)大(da)模(mo)型(xing)?

答案是肯定的,这种方法也节省了训练成本。从深度和广度的角度来看,通过复用已训练的参数,达到深度扩展和宽度扩展,使训练效率翻倍,同时降低了达50%的训练成本。

第四,神经网络处理器和推理芯片是我们近十年来的重点。如今已(yi)经(jing)历了四(si)代迭代,从第一(yi)代NNP100到目前的(de)(de)NNP400T,我们已(yi)经(jing)完全灵活(huo)适(shi)(shi)配多种深度学习架(jia)(jia)构(gou),特(te)别是在Transformer架(jia)(jia)构(gou)下,我们进行了指令集优化(hua)、算子的(de)(de)协同设(she)(she)计以及高效的(de)(de)联合设(she)(she)计,支撑了Transformer结(jie)(jie)构(gou)的(de)(de)高效推理(li)。此(ci)外,我们还是最早一(yi)批使(shi)用Chiplet结(jie)(jie)构(gou)适(shi)(shi)配大(da)模(mo)型的(de)(de)公司之一(yi)。

云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024

利用(yong)这四项核心(xin)技术,我(wo)(wo)们(men)构(gou)建了(le)支(zhi)(zhi)持(chi)边缘大(da)模型的(de)算法芯片化系统。我(wo)(wo)们(men)的(de)底(di)层技术支(zhi)(zhi)持(chi)了(le)神经网(wang)络处理(li)器和自主(zhu)研发的(de)推理(li)芯片,促进(jin)了(le)国产化进(jin)程,避(bi)免(mian)了(le)对供应(ying)链(lian)的(de)依赖,并在(zai)此基础上实现(xian)了(le)多(duo)模态大(da)模型的(de)运(yun)行(xing)。从行(xing)业应(ying)用(yong)的(de)角度(du)来看,我(wo)(wo)们(men)有基于行(xing)业到(dao)边缘的(de)场景大(da)模型。更(geng)重要的(de)是,我(wo)(wo)们(men)支(zhi)(zhi)持(chi)用(yong)户(hu)进(jin)行(xing)无(wu)感知的(de)在(zai)线微(wei)调,同时保护用(yong)户(hu)的(de)数据(ju)隐(yin)私(si),而(er)且(qie)成本极低。

六、实现每秒30字高效推理,多模态大模型已落地G端

云天天书的多模态大模型在文本理解和生成方面表现卓越,每秒可实现30字的高效推理速度,并能处理超过45万字的(de)上下文。通(tong)过(guo)指(zhi)定要求,快速(su)生成(cheng)符合(he)特定格(ge)式的(de)通(tong)知(zhi)、决议(yi)等文件(jian),从而有效推动(dong)办(ban)公自动(dong)化。大家可以看到整个生成(cheng)过(guo)程内容极其(qi)简洁,速(su)度极其(qi)快。

此(ci)外,我们也(ye)支持带参(can)考(kao)内(nei)容的(de)(de)文章修改和润色,可以复(fu)制一部分(fen)已有的(de)(de)参(can)考(kao)内(nei)容,高效地(di)进(jin)行润色、修改,变成(cheng)大(da)家(jia)所需要的(de)(de)东(dong)西(xi)。目(mu)(mu)前这一块的(de)(de)内(nei)容已成(cheng)功地(di)在多个地(di)级市(shi)、省厅局委办落(luo)地(di)。采用我们的(de)(de)多模(mo)(mo)态大(da)模(mo)(mo)型进(jin)行办公(gong)赋能(neng),对于项目(mu)(mu)报告的(de)(de)内(nei)容生成(cheng)也(ye)是非(fei)常(chang)灵活。

最(zui)后,在(zai)文(wen)本内容(rong)的理解和生(sheng)(sheng)成方面,很重(zhong)要(yao)的一(yi)点是(shi)(shi)生(sheng)(sheng)成的质量。我们自(zi)(zi)带校阅功能,生(sheng)(sheng)成完之(zhi)后可以多(duo)(duo)(duo)次优(you)化里面的内容(rong),达(da)到自(zi)(zi)迭代(dai)、自(zi)(zi)进化的效果。云(yun)天天书多(duo)(duo)(duo)模态大模型支(zhi)撑视(shi)频数据(ju)的理解和生(sheng)(sheng)成,很多(duo)(duo)(duo)数据(ju)训练过程结束(shu)之(zhi)后,有一(yi)些数据(ju)是(shi)(shi)需要(yao)优(you)化、编(bian)(bian)辑的,尤其在(zai)消(xiao)费端的场景,比如对图片编(bian)(bian)辑,对3D数据(ju)合(he)成。

我们可以通过多模态大模型进行数据的合成,达到(dao)我们想要(yao)的(de)(de)3D数(shu)据(ju)。对于图片(pian)的(de)(de)数(shu)据(ju)理解,比如通过指(zhi)令去(qu)(qu)渲染,通过指(zhi)令去(qu)(qu)编辑(ji)整(zheng)个图片(pian),让大(da)(da)模(mo)型(xing)(xing)去(qu)(qu)理解,根据(ju)指(zhi)令操作图片(pian),甚至画出(chu)不同的(de)(de)风格。多模(mo)态(tai)大(da)(da)模(mo)型(xing)(xing)的(de)(de)Agent能力,以开源目标检(jian)测(ce)为例,这(zhei)种技(ji)术为城市发(fa)展提供了支持,正如我们之前(qian)提到(dao)的(de)(de),我们发(fa)布了一个AI模(mo)盒,旨在(zai)促进AI技(ji)术在(zai)城市领域的(de)(de)应用,其(qi)中就(jiu)包(bao)括基于多模(mo)态(tai)大(da)(da)模(mo)型(xing)(xing)的(de)(de)支持。

我(wo)们非常荣幸(xing),能够(gou)身处(chu)在(zai)这个AI蓬(peng)勃发(fa)展,引(yin)领各(ge)行各(ge)业不(bu)断变革的时代。如(ru)今,AI大(da)模型技术在(zai)各(ge)行各(ge)业遍(bian)地(di)开花,我(wo)们希(xi)望携手各(ge)行各(ge)业的专家及(ji)朋友,共同(tong)引(yin)领多(duo)模态技术的落地(di),并迈向AGI大(da)方向。

以上是余晓填演讲内容的完整整理。