智东西(公众号:zhidxcom)
编辑 | GenAICon 2024
2024中(zhong)国生成式(shi)AI大(da)会于(yu)4月18-19日在(zai)北京(jing)举行,在(zai)大(da)会首(shou)日的主会场大(da)模型专场上(shang),前Meta首(shou)席工程(cheng)负(fu)责(ze)人胡鲁辉老师以《从多模态(tai)大(da)模型到理解物理世界》为(wei)题发表(biao)演(yan)讲。
胡鲁辉谈道,聚焦多模态大模型的后GPT-4时代呈现出4大趋势,一是语言大模(mo)(mo)(mo)型到多模(mo)(mo)(mo)态大模(mo)(mo)(mo)型,二是数据集成到向(xiang)量数据库,三是Agent智能体到大模(mo)(mo)(mo)型操作系统,四是模(mo)(mo)(mo)型微调到Plugin(插件)平(ping)台。
他认为大模型是通向AGI靠谱的方法。在大模型的落地应用中,企业和研究机构需要面对多方面的挑战。首先是数据的标准化问题,不同来源和格(ge)式(shi)的数(shu)据(ju)需要被转化成一种统一的格(ge)式(shi),以(yi)便于(yu)模(mo)型的训练(lian)和应(ying)用。
此外,模型的分散性和应用场景的复杂性也大大增加了开发的难度。例如,在不同的物理环境下,模型需要调整其参数以适应特定的硬件和软件条件。同时,算力成本和训练时间的长短也是(shi)制约大模型广(guang)泛应用(yong)的重(zhong)要因素。
胡鲁辉预测下一个AI 2.0爆发点及落地大方向将是AI for Robotics。这(zhei)(zhei)一领域(yu)的(de)发展需要模(mo)型不仅理(li)解编程(cheng)或语(yu)言处(chu)理(li),更(geng)要深入(ru)到物理(li)世界的(de)具体应(ying)用中去。这(zhei)(zhei)涉及对物理(li)环境的(de)理(li)解和(he)设计,需要大模(mo)型能够整合各(ge)种感知数据,进(jin)行(xing)快速的(de)决策和(he)学习,以(yi)应(ying)对不断变化的(de)外(wai)部条件(jian)。这(zhei)(zhei)一过程(cheng)中,模(mo)型的(de)训练和(he)应(ying)用将更(geng)加(jia)依赖于高(gao)效的(de)算力(li)和(he)先(xian)进(jin)的(de)硬件(jian)支持。
以下为胡鲁辉的演讲实录:
今天(tian)我要分享(xiang)的是《从多模态(tai)大(da)(da)模型到理解物理世界》。大(da)(da)模型的快速发(fa)展加(jia)上不(bu)断(duan)的技术演(yan)变(bian),变(bian)化很大(da)(da),我希望(wang)将自(zi)己的一(yi)些实战经历(li)分享(xiang)给大(da)(da)家。
今(jin)(jin)天主要(yao)分享(xiang)(xiang)4个方面。首先从(cong)大模型的原理(li)出(chu)发,讲一下GPT-4之后硅谷(gu)及全球有(you)哪些重大变化;其次结(jie)合大模型和(he)多(duo)模态的特征,分享(xiang)(xiang)Transformer以及我在Meta的相关(guan)工作经历;今(jin)(jin)天的重点是为什么(me)要(yao)去理(li)解物(wu)(wu)理(li)世(shi)界,仅仅依靠语言大模型并(bing)不能走向通用(yong)人工智能,理(li)解物(wu)(wu)理(li)世(shi)界才有(you)可能走向它(ta);最后,结(jie)合多(duo)模态大模型和(he)理(li)解物(wu)(wu)理(li)世(shi)界探讨如(ru)何接近(jin)AGI。
一、大模型开启AI 2.0时代,Meta是开源领导者
每(mei)个技术的(de)(de)快(kuai)速发展(zhan)离不开(kai)背(bei)后(hou)大(da)量的(de)(de)科研创新工(gong)作,这(zhei)是(shi)人(ren)工(gong)智能复(fu)兴(xing)的(de)(de)原因,因为其在快(kuai)速发展(zhan)和迭代(dai)(dai)。人(ren)工(gong)智能的(de)(de)重要(yao)性和意义十分突出,可以说,这(zhei)次人(ren)工(gong)智能是(shi)第(di)(di)四次计(ji)算(suan)时(shi)代(dai)(dai)或第(di)(di)四次工(gong)业革(ge)命。第(di)(di)三(san)次计(ji)算(suan)时(shi)代(dai)(dai)是(shi)移动互联(lian)网(wang)时(shi)代(dai)(dai),我们正处于这(zhei)个时(shi)代(dai)(dai),根(gen)据每(mei)次的(de)(de)发展(zhan),第(di)(di)四次的(de)(de)规模比第(di)(di)三(san)次要(yao)大(da),且(qie)从经济效益上来讲,对(dui)人(ren)类社会的(de)(de)影响力(li)更大(da)。
人工智能在历史上有两个拐点,AlphaGo和ChatGPT。虽然每一个拐点只代表一个产品或者技术,但其对人类的影响不仅是技术本身,如AlphaGo,不可能所有公司都做下棋产品或平台。对社会来说,第一次是利用拐点背后的技术(如CV或别的技术)开始AI 1.0时代。这一次则是基于大模型泛化涌现的能力开始AI 2.0时代。
ChatGPT发布了一年多,性能表现的排名仍比较领先。并且现在大模型训练的费用或成本越来越高,之前GPT-4训练的时候需要6000万美元左右,GPT-5可能更贵。

目前OpenAI是闭源大模型的领导者,Meta是开源的领导者。OpenAI在闭源大模(mo)型(xing)中的(de)领导地位是公认的(de),Meta的(de)开源大模(mo)型(xing)Llama和视觉(jue)SAM比较领先。其中Llama帮助了很多语(yu)言模(mo)型(xing)开发(fa)公司的(de)团队,让他们拥有了很好的(de)基础。
现在模型中,有三个闭源和三个开源比较领先。或许大家疑惑Meta的Llama怎么不见了,Meta在做另外一件更有意义的事情,就是理解物理世界,他们叫世界模型。最近Llama还没有迭代(dai),大家可(ke)以拭目(mu)以待,这个排名(ming)还是会变化的,Llama为很多大语言模型奠定(ding)了基础(chu),帮助很多企业飞速发展。

二、Meta有三大SOTA视觉大模型,多模态、视觉与语言走向融合
Meta的视觉大模型还有很多贡献。Transformer最初应用于语言模型,逐步衍生到视觉,其中比较火的一个就是ViT,视觉Transformer。
Meta通过ViT或Transformer不断迭代,有三个影响比较大的视觉Transformer:一是DeTr,Detection Transformer,它有端到端的Object Detection;二是DINO,通过Transformer开启了视觉领域的自监督,无论是大语言模型还是其他大模型,都不能依赖打标签,需要它能够自主学习监督;三是SAM,更多是零样本,是泛化的(de)能力(li)。

在视(shi)觉领域,除了Sora,SAM影响力较大。怎(zen)(zen)么训(xun)练SAM,需要(yao)多少(shao)资(zi)(zi)源(yuan)(yuan),或者(zhe)训(xun)练过程中需要(yao)注意哪些事情?我去年写了一篇文章Fine-tune SAM,详细(xi)讲了怎(zen)(zen)么利用SAM做微(wei)调,如何控制资(zi)(zi)源(yuan)(yuan),或者(zhe)利用资(zi)(zi)源(yuan)(yuan)更有效地做微(wei)调。

几年前,一提(ti)到人工智能,就(jiu)会(hui)想(xiang)到视觉(jue)、语(yu)言(yan)两个支派(pai),CNN、RNN基本上井水不犯(fan)河水。做NLP的一波人和(he)做CV的那波人有各(ge)自的学(xue)术派(pai),方法不一样(yang),会(hui)议也(ye)不太(tai)一样(yang)。这次深度学(xue)习,语(yu)言(yan)模型从(cong)LSTM到Word2Vec,到最近的GPT还(hai)有BERT。视觉(jue)模型最早从(cong)分(fen)类到检测,再到分(fen)割,接着(zhe)从(cong)语(yu)义分(fen)割到实例分(fen)割。
这(zhei)里(li)有许多地方(fang)特别相近,所谓的语言大模型无非是(shi)(shi)更深层次的一个(ge)相关性和(he)逻辑(ji)推理。视(shi)觉(jue)也是(shi)(shi)一样,逻辑(ji)上二者是(shi)(shi)融合的,技术上是(shi)(shi)Transformer。语言层面(mian)GPT-4、 Llama比(bi)较经(jing)典;视(shi)觉(jue)中(zhong)Sora和(he)SAM都是(shi)(shi)比(bi)较经(jing)典的例子,它后面(mian)的Backbone都是(shi)(shi)基(ji)于Transformer。
无论从逻辑上讲语义相关性,还是技术上Transformer Backbone,都在逐步融合。
这是一(yi)个(ge)好消息。对研发工作者而言,以前井水不犯(fan)河水的(de)NLP和CV终于有一(yi)天融(rong)合了。它在发生一(yi)个(ge)质的(de)变化。
当前AI的(de)(de)核心技术,也是个比较靠谱的(de)(de)AGI方(fang)法,能(neng)从(cong)(cong)一个技术、一个方(fang)向扩(kuo)展到(dao)下一阶段。但(dan)Meta首(shou)席(xi)AI科学家杨立昆反(fan)而(er)不(bu)这(zhei)么认为,JEPA从(cong)(cong)最(zui)初的(de)(de)Image JEPA到(dao)Video JEPA有自己的(de)(de)理论(lun)。但(dan)不(bu)管怎(zen)么样(yang),从(cong)(cong)工(gong)程上或者应用上,它的(de)(de)效果确实突(tu)出。
打造大模型的核心关键能力是什么?一般人会说是三个核心,数据、算力、算法。而我根(gen)据一些工作经验还(hai)归纳出(chu)来另外两点。
一个是模型架构,现在(zai)的(de)(de)(de)大模(mo)型(xing)(xing)(xing)和以前的(de)(de)(de)深(shen)度(du)学习算(suan)法不同的(de)(de)(de)地方,就是模(mo)型(xing)(xing)(xing)架(jia)(jia)构(gou)(gou)的(de)(de)(de)重要(yao)性。通过Backbone或(huo)模(mo)型(xing)(xing)(xing)架(jia)(jia)构(gou)(gou)的(de)(de)(de)重塑做迁(qian)移学习或(huo)微调,不是仅(jin)仅(jin)把领(ling)域数据或(huo)者领(ling)域知识输入进去,而是通过改变模(mo)型(xing)(xing)(xing)架(jia)(jia)构(gou)(gou)产生一个新的(de)(de)(de)模(mo)型(xing)(xing)(xing),达到自己(ji)想要(yao)的(de)(de)(de)领(ling)域模(mo)型(xing)(xing)(xing)。
还有一个是智能工程。Llama是开源的,OpenAI搞(gao)出来(lai)GPT-3.5,也就(jiu)(jiu)是ChatGPT,改变(bian)世(shi)界的奇(qi)点就(jiu)(jiu)发生了(le)。有(you)GPT-3,有(you)数据、算力,但能(neng)(neng)不能(neng)(neng)制造出GPT-3.5?不同的公司不一(yi)样,根(gen)本原因就(jiu)(jiu)是智能(neng)(neng)工程不同。
这五个里(li)面(mian)哪个最(zui)核心(xin)、最(zui)关(guan)键?很多人可(ke)能(neng)会说是(shi)算(suan)力,很贵,买不(bu)到H100、A100,但(dan)是(shi)无论是(shi)谷歌还(hai)是(shi)微软,都不(bu)会缺乏算(suan)力,他们(men)目前却没有世界最(zui)领先(xian)的(de)GPT-4这样的(de)模型。
国(guo)内很喜欢说(shuo)数据,没有(you)数据的(de)(de)确很难搞出好的(de)(de)模(mo)型,但是很多大(da)厂也(ye)不会缺(que)数据。算法(fa)基本(ben)上是开源(yuan)(yuan)的(de)(de),像Transformer或者一(yi)些比(bi)较新(xin)的(de)(de)算法(fa)也(ye)是开源(yuan)(yuan)的(de)(de),它(ta)也(ye)不是最关键因素。而模(mo)型架构(gou),也(ye)可以通过一(yi)些微调、不同的(de)(de)尝试(shi)探索出来。
所以结合国外的模型和国内的现状,最核心打造大模型的能力应该是智能工程。
这也就是说OpenAI的一些人出来创业搞Claude,刚才大家看到排名中第二领先的就是Claude,就是OpenAI中的人出来创业做的事情。说明人才是最值钱的。
三、预测“后GPT-4”四大发展趋势,理解物理世界有七大特征
现(xian)在GPT-4是多模态大模型,在硅谷(gu)及全球人(ren)工智(zhi)能发展到底有哪些趋(qu)势?我认为(wei)有四个(ge)方(fang)面(mian),这(zhei)张图是根据我的预测让GPT-4生成的图例展示(shi)。

第一,从语言大模型到多模态大模型。
第二,迈向向量数据库。目前的(de)大语言(yan)模(mo)型或(huo)多(duo)(duo)模(mo)态大模(mo)型不论多(duo)(duo)大,都(dou)有一(yi)定(ding)的(de)局(ju)限(xian)性,导(dao)致向量数(shu)据库(ku)火起来了(le)。大家可以(yi)把(ba)(ba)一(yi)部(bu)(bu)分(fen)或(huo)大部(bu)(bu)分(fen)的(de)数(shu)据放在(zai)向量数(shu)据库(ku)里,把(ba)(ba)相关的(de)数(shu)据放在(zai)大模(mo)型中。
第三,从自动Agent到将大模型作为操作系统。Agent比较火,但是它的(de)背后依然(ran)是语言(yan)大模型(xing)或多模态大模型(xing)。Agent相(xiang)当于软件自动(dong)实现。后续多模态大模型(xing)作为操作系(xi)统(tong)可能是比较核心的(de)。
第四,开源模型从微调到引入插件平台。ChatGPT相(xiang)当于(yu)一个平台,不(bu)仅(jin)可以微调,而且可以通过插件作为一个平台,因此(ci)插件可能(neng)是未来的一个方向。

为什(shen)么模型能(neng)(neng)够这么快(kuai)发(fa)展(zhan),为什(shen)么我们(men)能(neng)(neng)够支撑(cheng)(cheng)Scaling Law?很(hen)大(da)原(yuan)因是计(ji)算能(neng)(neng)力(li)(li)的发(fa)展(zhan)。CPU时代有摩尔(er)定律(lv),GPU时代同样发(fa)展(zhan)速度更快(kuai)。去(qu)年(nian)英(ying)伟达发(fa)布能(neng)(neng)够支撑(cheng)(cheng)1亿FLOPS的算力(li)(li),今年(nian)他们(men)发(fa)布了(le)新的DGX GB200,去(qu)年(nian)是GH200,现(xian)在是GB200,小了(le)一(yi)点(dian),更快(kuai)一(yi)点(dian),但还(hai)是一(yi)个(ge)量(liang)级的。好几个(ge)DGX串起(qi)来是很(hen)大(da)的规模,近十年(nian)之前(qian)IBM计(ji)算机也(ye)是相当(dang)大(da)的,而现(xian)在手机就(jiu)能(neng)(neng)支撑(cheng)(cheng)以(yi)前(qian)的算力(li)(li),GPU其(qi)实也(ye)一(yi)样。

有这(zhei)个(ge)大模型或算力后,应用(yong)在发生什么变化?可以看到(dao),AI 2.0比较以前的传统软件(jian)或互联网,用(yong)户和场(chang)景可能都一(yi)样。但(dan)是(shi)(shi)以前是(shi)(shi)用(yong)户从App到(dao)服务软件(jian)再到(dao)CPU,现在是(shi)(shi)用(yong)户从多模态(tai)到(dao)基础模型,然后到(dao)GPU,中间可以依赖数(shu)据(ju)库(ku)或者训练数(shu)据(ju),传统的用(yong)数(shu)据(ju)库(ku),现在用(yong)向量数(shu)据(ju)库(ku)。
接下来关于理解物理世界,AI赋能了智能手机、智能车、智能家居等等,围绕的计算核心是智能云。现在或未来中心会是AI factory(人工智能工厂),它的输入是Token,文字、视觉或视频,它的输出就是AI。过去应用有手机、有车,将来就是各种机器人。未来汽车某种意义上也是一种机器人。从架构来看,AI for Robotics是一个未来方向,未来即将爆发(fa)的方向(xiang),从(cong)云计算、AI工程(cheng)、基(ji)础模型,生成(cheng)式AI再到上面的AI for Robotics。
理(li)解(jie)物理(li)世界(jie)也比较有挑战性(xing),现(xian)在的(de)语言模型(xing)只能局(ju)限于训练的(de)范围中(zhong),对外界(jie)的(de)理(li)解(jie)还是有相当的(de)局(ju)限性(xing)。
理(li)(li)解(jie)物(wu)理(li)(li)世界(jie)到底有(you)哪(na)些特征,怎么能够(gou)从现有(you)的(de)多模态(tai)大模型转向理(li)(li)解(jie)物(wu)理(li)(li)世界(jie),有(you)了理(li)(li)解(jie)物(wu)理(li)(li)世界(jie)以后(hou)再向AGI接(jie)近?我认为有(you)七个方面(mian),最外(wai)面(mian)的(de)紫色是(shi)比较(jiao)(jiao)优秀的(de)人(ren)(ren),因为人(ren)(ren)的(de)水平(ping)(ping)都不(bu)一样,作为比较(jiao)(jiao)优秀的(de)人(ren)(ren)能够(gou)理(li)(li)解(jie)物(wu)理(li)(li)世界(jie)的(de)水平(ping)(ping)。

但GPT-4或最(zui)新(xin)的(de)GPT-4 Turbo是(shi)什么样?是(shi)里面(mian)的(de)圈。现在GPT-4 Turbo和人还是(shi)有(you)很大的(de)距(ju)离,只(zhi)有(you)从每(mei)个维度提升发展,才(cai)能真正(zheng)理(li)(li)解物理(li)(li)世界,更(geng)加接(jie)近地通用(yong)人工(gong)智能。
理(li)解(jie)物(wu)理(li)世界不仅仅是对空间(jian)的(de)理(li)解(jie)或(huo)者空间(jian)智能,因(yin)为从概念上 “空间(jian)”相(xiang)当于3D,不包括语言(yan)等核心AI。
说到这里(li),大(da)家可能觉得比较抽象,这也是Meta最近在(zai)做的一些(xie)事情。Meta在(zai)开源大(da)模(mo)型(xing)或者开源多模(mo)态大(da)模(mo)型(xing)方面目(mu)前显得“落(luo)后”了,但Llama 3马(ma)上(shang)来了,是因(yin)为它把(ba)很多精力(li)花在(zai)了世界模(mo)型(xing)中,同时在(zai)治理的7个方面提高(gao)模(mo)型(xing)的能力(li)。
我最近成立一家公司叫智(zhi)澄(cheng)AI,致(zhi)力于通用人工智(zhi)能(neng)。“澄(cheng)”的意思是(shi)逐步走(zou)向(xiang)真正的智(zhi)能(neng)。
以上是胡鲁辉老师演讲内容的完整整理。