智东西(公众号:zhidxcom)
作者 | GenAICon 2024

2024中国生成式AI大会于4月(yue)18-19日在北京举行,在大会第二(er)天(tian)的主(zhu)会场(chang)(chang)AIGC应用专场(chang)(chang)上,极佳(jia)科技创始(shi)人&CEO黄冠博士以(yi)《技术与应用闭环,从视频生成走(zou)向世界模(mo)型》为题(ti)发表演讲。

黄冠认为,当下所有“通用智能”都在走向“端到端大模型”,一切问题都变成了“高质量数据”问题“世界模型”是未来具身智能最重要的“高质量数据”来源,它结(jie)合互联网数据(ju)(ju)、仿真(zhen)数据(ju)(ju)、遥操(cao)数据(ju)(ju)、真(zhen)实采集(ji)数据(ju)(ju)等多种数据(ju)(ju),学习、训(xun)练、组(zu)合,从(cong)而得到交(jiao)互式(shi)物理(li)世(shi)界模拟器。

极佳科技正基于世界模型打造新一代数据平台,面向端到端自动驾驶和通用机器人提供服务。极佳科技DriveDreamer自动驾驶世界模型、WorldDreamer通用世界模型目前已成功商业化落地

以下为黄冠的演讲实录:

今天我主(zhu)要跟大家汇报讨论(lun)一下我们(men)在视频(pin)生成、世(shi)界模型方面相关的思考和进展,以(yi)及主(zhu)要想(xiang)(xiang)分(fen)享(xiang)一下我们(men)对于打造通(tong)用具身智能新一代数(shu)据引擎的想(xiang)(xiang)法。

我们总结了通用智能目前大的发展趋势,整个行业在从以GPT和Sora为代表的通用内容智能,走向通用行动智能。无论是Agent、自(zi)动驾驶还(hai)是机(ji)器人,其(qi)核心是从产(chan)(chan)生(sheng)(sheng)(sheng)内容到(dao)产(chan)(chan)生(sheng)(sheng)(sheng)行(xing)(xing)动。当大(da)模型能可靠(kao)地产(chan)(chan)生(sheng)(sheng)(sheng)行(xing)(xing)动,那么(me)对整(zheng)个经济和社会的影响(xiang)肯定是更大(da)范围的,才是大(da)家(jia)所谓的走向真(zhen)正(zheng)的“第四次工业(ye)革(ge)命”。

一、世界模型发展三大方向:视频生成、自动驾驶、通用机器人

世界模型这个词一开始是杨立昆提出的,他说GPT不能达到AGI,我们需要世界模型。其实这两年国内外,大家越来越认识到世界模型的重要性,核心是分三个方向在发展,包括视频生成、自动驾驶和通用机器人,都非常关注世界模型的进展。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

首先是视频生成。今年(nian)年(nian)初Sora引爆整个AI圈子,值得注意(yi)的(de)是(shi)(shi)OpenAI并(bing)没有(you)(you)把Sora看成一(yi)个单纯(chun)的(de)文生视频模(mo)型,而是(shi)(shi)把它叫做(zuo)World Simulator(世界(jie)模(mo)拟器),这就有(you)(you)了世界(jie)模(mo)型的(de)雏形。去年(nian)下半年(nian)Runway也(ye)公(gong)开宣布说(shuo)他们要走(zou)向(xiang)通用世界(jie)模(mo)型。

我们也有一(yi)个(ge)工作叫WorldDreamer,应该(gai)是全球比较领(ling)先的用Transformer新一(yi)代架(jia)构(gou),不(bu)是Diffusion架(jia)构(gou),去(qu)走向通用视频(pin)生成(cheng)和世界模型。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

其次我们看到自动驾驶这个行业。既然是世界(jie)模型,一定会影响物理(li)世界(jie),会对(dui)物理(li)世界(jie)有(you)极强的理(li)解和预测(ce)能力。

所以我们看(kan)到(dao)特斯拉从去(qu)年年中开始(shi)说(shuo)他们在做General World Model(通(tong)用世界模型),同时特斯拉不断在视频(pin)基础模型这(zhei)个方向加大投入。还(hai)有Wayve是一家英国的(de)自动(dong)驾驶公(gong)司,这(zhei)是比尔·盖茨(ci)在投了OpenAI之(zhi)后,立马就去(qu)英国投的(de)一家公(gong)司,因为比尔·盖茨(ci)觉(jue)得Wayve让他看(kan)到(dao)了物理世界AGI的(de)希望(wang)。

极佳科技(ji)也是国内(nei)最早(zao)开始做(zuo)自动(dong)驾(jia)驶世(shi)界模(mo)(mo)型(xing)的公司,我们的模(mo)(mo)型(xing)叫DriveDreamer,目(mu)前已(yi)经实(shi)现了(le)大规模(mo)(mo)的商业(ye)落地应用。

更大的趋势,大家看到现在在通用机器人方(fang)向,伯克利、Covariant做(zuo)了一系列跟世(shi)界(jie)模(mo)拟器(qi)(qi)、世(shi)界(jie)模(mo)型相关的(de)工作(zuo),包括他们最近发(fa)的(de)RFM机器(qi)(qi)人大模(mo)型相关工作(zuo)。谷歌也在做(zuo)可交互式的(de)世(shi)界(jie)模(mo)型,人形机器(qi)(qi)人创企1X也通过世(shi)界(jie)模(mo)型预(yu)测未来、实(shi)现通用机器(qi)(qi)人。

全球世界模型跟视频生成、自(zi)动驾驶(shi)、通(tong)用机器人行业(ye)结合(he)起来,正在非常快速发展。

二、通用智能走向端到端大模型,世界模型是最重要的高质量数据来源

目前的趋势是,所有通用智能都在走向端到端大模型,无论是生成式智能,包括语言、视频、图像、3D等的理解和生成;还是具身智能,包括(kuo)自动(dong)驾驶(shi)、通(tong)用机器(qi)人等(deng)。

特别是自(zi)动(dong)驾驶,大家(jia)看到最(zui)近马斯克频(pin)频(pin)给特斯拉(la)V12造(zao)势,它是标(biao)准的Video-in Action-out(视频(pin)输入(ru)-动(dong)作输出)系统。通用机器人也是最(zui)新的硅谷趋势,大家(jia)都(dou)在走(zou)向(xiang)端到端、Video-in Action-out这(zhei)样一(yi)个范式。

在这个趋势下,一切问题就变成了高质量数据的问题,因为这已经不再(zai)是过去规(gui)则驱动的(de)(de)系统了(le),需(xu)要(yao)高(gao)质量端(duan)到(dao)端(duan)的(de)(de)数据去迭代,去训(xun)练(lian)这样(yang)生成式智(zhi)能或具身智(zhi)能的(de)(de)系统。

我们认为,世界模型是未来具身智能最重要的高质量数据来源。现在大家看到有(you)很(hen)多种(zhong)解决数(shu)据(ju)(ju)问题的方式(shi),包括从互联网的图(tu)像、视(shi)频数(shu)据(ju)(ju)去学习,还有(you)用仿真(zhen)(zhen)数(shu)据(ju)(ju)去学习,或(huo)者像斯坦福通过ALOHA机(ji)器人(ren)等遥操设备(bei)去做端到端学习,自动驾驶或(huo)机(ji)器人(ren)通过真(zhen)(zhen)实(shi)采集的数(shu)据(ju)(ju)去学习。

行业里大家首(shou)先通过(guo)各种(zhong)仿真(zhen)的(de)(de)方式去解决Sim2Real的(de)(de)问题,以及通过(guo)更大规模的(de)(de)部(bu)署,解决更多真(zhen)实数(shu)据来源的(de)(de)问题。

所以我们认为未来的数据来源一定会走向世界模型,它会结合上面所有数据去学习训练组合,得到交互式的物理世界模拟器

三、基于世界模型打造新一代数据平台,商业化落地速度国内最快

我们目前在做的事情,就是基于世界模型打造新一代的数据平台,面(mian)向端到(dao)端自动驾驶(shi)和(he)(he)(he)通用(yong)(yong)机器(qi)人(ren)。平台(tai)底层是(shi)一个以(yi)视(shi)频生(sheng)成和(he)(he)(he)世界模型(xing)为核心的基础模型(xing)。大家知道Sora目前是(shi)不可用(yong)(yong)的,无论是(shi)成本(ben)还(hai)是(shi)速度,我们会(hui)追求速度和(he)(he)(he)成本(ben)达到(dao)数(shu)量级的降低(di)。

同时我们(men)会有完(wan)备的平台服务,通(tong)过数据方式去服务端到端通(tong)用(yong)自动驾驶,以(yi)及通(tong)用(yong)机器人(ren)的通(tong)用(yong)操作、通(tong)用(yong)移动等(deng)相关场景,助力(li)具身智能行(xing)业爆发。

极佳科技目前在自动驾驶世界模型上,相关技术是全球最领先的之一,同时我们商业化速度也是全球最快的。我们和(he)国(guo)内(nei)很多主流的头部(bu)主机厂已(yi)经开始实(shi)际的商业(ye)合作,通过世界模(mo)型,用于数据生成、闭环仿(fang)真等相关方向。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

同时,更具想象力和价值的场景,是我们面向通用机器人的世界模型和物理世界模拟器,这个方向我们的技术目前在国内也是比较领先的,同时我们商业化落地速度也是国内最快的。

其核心跟驾驶一样,首先它可以作为一个模拟器在通用机器人的数据生成、闭环仿真方面有重要的作用,同时后面也可以作为方案一部分,走向机器人的端到端方案。这个范式跟过去的自动驾驶和机器人分模块范式很不一样,会走向大一统的面向通用具身智能的端到端整体架构

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024以上是黄冠演讲内容的完整整理。