智东西(公众号:zhidxcom)
作者 | GenAICon 2024
2024中国生成(cheng)式AI大(da)会于(yu)4月18-19日在(zai)北京举行(xing),在(zai)大(da)会首日的主会场开幕式上,阿(a)里(li)巴巴通义实验室(shi)XR团(tuan)队(dui)负责人薄列峰博(bo)士以(yi)《人物视频(pin)生成(cheng)新范式》为题(ti)发表(biao)演讲。
随着Sora等文生视频模型掀起热潮,很多人都在探讨文生视频模型能不能算作世界模型。对此,薄列峰认为,文生视频模型与世界模型的机制存在差异,视频是一个观察者角色,并不能真正改变世界,文字与物理世界描述之间也具有不对应关系。
人物视频生成模型是阿里通义实验室XR团队的一个研究重点。薄列峰通过人物动作、人物换装、人物替身、人物唱演4个框架来解读人物视频生成新范式。基于这些框架的应用,正逐步落地通义千问APP。
人物动作视频生成框架Animate Anyone可基于单张图和动作序列,输出稳定、可控的人物动作视频;人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象;人物视频角色替换框架Motionshop采用Video2Motion,基于视频人物动作驱动3D数字人;人物唱演视频生成框架Emote Portrait Alive能(neng)够(gou)基于单张图和音频,输出准(zhun)确、生动的人物唱演视(shi)频。
以下为薄列峰的演讲实录:
我(wo)的(de)分(fen)享前(qian)半部分(fen)讲行(xing)业(ye)趋势以(yi)及我(wo)在多模态、文生(sheng)(sheng)文等方向的(de)思考(kao);后半部分(fen)分(fen)享我(wo)们在文生(sheng)(sheng)视(shi)频生(sheng)(sheng)成方向的(de)工作(zuo)。可以(yi)非常自(zi)信地说,我(wo)们在整(zheng)个(ge)(ge)业(ye)界具备领先性(xing),整(zheng)个(ge)(ge)工作(zuo)也(ye)有很强的(de)特色。
一、文生视频模型基于统计关系,不是世界模型
首先,文生视(shi)(shi)频(pin)(pin)高速发(fa)展,大家讲(jiang)发(fa)展基(ji)石的时候都(dou)会讲(jiang)到数据、机器、人才。什么是(shi)多(duo)模(mo)态?什么是(shi)视(shi)(shi)频(pin)(pin)?文生视(shi)(shi)频(pin)(pin)这(zhei)个领域基(ji)础(chu)又(you)是(shi)什么?目前思(si)考得还比较少。
先(xian)回(hui)顾一下进程,大家可以(yi)看到Midjourney在文生图(tu)方(fang)(fang)向(xiang)的(de)(de)(de)突(tu)破;OpenAI借助非常强(qiang)的(de)(de)(de)理解(jie)大模型、能够对图(tu)像实现(xian)精标的(de)(de)(de)能力,在文生图(tu)上做(zuo)出自己有特色的(de)(de)(de)工作和突(tu)破;创(chuang)业(ye)公司像Pika、Runway也(ye)在做(zuo)自己的(de)(de)(de)工作,分别(bie)从不(bu)同的(de)(de)(de)路(lu)径和方(fang)(fang)向(xiang)来演进;包括谷歌、大的(de)(de)(de)创(chuang)业(ye)公司,过去一年有很多文生视频(pin)方(fang)(fang)向(xiang)的(de)(de)(de)研究工作。
这(zhei)些工作从研究的(de)角度有(you)一定(ding)数(shu)量(liang)的(de)数(shu)据集,做一些方向的(de)突破(po)可能没(mei)有(you)那么难。OpenAI相当于把这(zhei)个事情做到(dao)了极致,在现在的(de)时(shi)间节(jie)点,整个Sora展示出非(fei)常(chang)好(hao)的(de)效果。
文生视频是不是世界模型?它和世界模型的机制还是有所差异的。
首先视频是一个观察者的角色,我们有一些摄像机在记录这个世界,但它不是真的去改变这个世界。如果说我(wo)需要做一(yi)些世界模型(xing),类(lei)似我(wo)需要一(yi)些具(ju)(ju)身(shen)智(zhi)能,当然这(zhei)也是(shi)大家提出的(de)一(yi)些新名词,具(ju)(ju)身(shen)智(zhi)能是(shi)在仿(fang)照我(wo)们生(sheng)物智(zhi)能。生(sheng)物智(zhi)能不(bu)光有思考,同样也有实体(ti),如果看实体(ti)的(de)部分(fen),具(ju)(ju)身(shen)智(zhi)能现阶段还是(shi)远(yuan)(yuan)远(yuan)(yuan)落(luo)后(hou)的(de),因为(wei)人体(ti)具(ju)(ju)备非常强的(de)灵(ling)活性和低碳的(de)消(xiao)耗(hao),不(bu)是(shi)今(jin)天物理机(ji)器所具(ju)(ju)备的(de),这(zhei)是(shi)一(yi)个(ge)差异(yi)点。
另一点,如果看文生视频,视频的存在并不依赖于文字是否存在。文(wen)字出现(xian)以前,地(di)球上的(de)生物就(jiu)可以看到这个(ge)物理世(shi)界。文(wen)字是我(wo)们(men)(men)引入去描述人自身的(de)思想,随着(zhe)人类进化了很多代(dai),是我(wo)们(men)(men)引入的(de)一个(ge)工具,实际可能(neng)跟(gen)今天(tian)的(de)编程语言也(ye)是类似的(de)。我(wo)们(men)(men)引入一个(ge)工具来描述这个(ge)物理世(shi)界,它具有(you)相当的(de)描述能(neng)力,但是它和物理世(shi)界之间也(ye)不(bu)对应,也(ye)就(jiu)是说它有(you)简化、有(you)抽象、有(you)归纳等(deng)。
整个文生视频做的工作是什么?有一个视频空间,还有一个文字空间。我们在文字空间给每个视频打上标或者找到一个对应。整个关系是一个统计的依赖关系,通过这样的关系和暴力的关联,再加上大数据,展现出了一定的文生视频能力,但是不代表这是我们物理世界真实运作的规律。
如果看文生文、文生视频,它们并不影响我们的物理世界,如果要影响物理世界,它还是需要达到生物智能所具备的特点。
在这里也分享我对AGI的理解。通过文字我们是否能实现AGI?首先文字的能力于生物智能而言,不是完整的。非完整的AI智能是否达到人类智能所具备的能力?现在看还是有相当的距离。如果今天让(rang)大模型去造(zao)一辆汽车,造(zao)一台电视可(ke)以吗(ma)?以我的观点(dian)来(lai)看,还是比较遥远(yuan)的。
二、做特色的人物视频生成,能换装唱演、角色富有表现力
通义实验室(shi)在(zai)视频(pin)生成方向有一些探索,我们(men)也有完整(zheng)的视频(pin)生成矩阵性的产(chan)品和(he)研究(jiu)。
回到今天分享主题的核心——人物视频生成,当(dang)大家讨论(lun)这个(ge)问(wen)题的时候(hou),第(di)一个(ge)问(wen)题是,为(wei)什么不做一个(ge)通(tong)用的视频(pin)生成就完了,为(wei)什么还要做人(ren)物视频(pin)生成?
视频生成和人物视频生成有共性,需要高质量的画质,包括整个运动要符合物理规律。如果看人的组成,包括人脸、人手、人的头发、人的服饰都具有相当的唯一性,同时展示出了非常精细的颗粒度。人物的特点、声音,这些还是人的感知部分,我们都还没有讲到人的实体部分,包括人是(shi)由物(wu)质(zhi)组成的(de)等,不(bu)同的(de)部分(fen)是(shi)不(bu)同的(de)物(wu)质(zhi),这些模拟(ni)可(ke)能(neng)是(shi)另一个层(ceng)面,包括我们是(shi)否能(neng)制造出一种材料跟生物(wu)智能(neng)是(shi)类似的(de)等等,这部分(fen)不(bu)是(shi)我们覆(fu)盖(gai)的(de)主题。
整体来看,它(人物视频生成)是相当有特色的,会导致在生成中有很多特性,包括控制是多样的,比如可以用声音来做控制,可以用人体的一些表达来做控制,可以用文本来做控制。控制具备丰富性,同时它生成的人的整体表现力需要非常丰富,如果生成的人表现力非常呆板,很难满足今天应用的需求。另外,生成的颗粒度、数(shu)字资产和人物运(yun)动的分离等(deng),都是极(ji)具(ju)特色的部分。
我们的工作包括人物动作、人物换装、人物替身、人物唱演等。接下(xia)来分(fen)享每个模块各(ge)自的工作(zuo)。
三、人物动作视频生成框架Animate Anyone:让兵马俑跳《科目三》
第一部分,我们在2023年11月发布人物动作视频生成框架Animate Anyone,在人物视频生成方向的发布早于Sora几个月,当我们把这个结果发布出来之后,引发了非常强烈的关注,主要是达到的视觉效果超越了之前的结果,可以说是一个数量级的超越。

整个方(fang)案的(de)框架有几个特色:
第一,有一张参考图,整个生成过程会对参考图做高度的保真。大家如果在生成的(de)时(shi)候看(kan)视频的(de)细(xi)节,可(ke)(ke)能会发现(xian),随着时(shi)间(jian)的(de)推(tui)移(yi),整个像素的(de)物理合理性可(ke)(ke)能不太对。我(wo)们有机制,在融入的(de)过程(cheng)中,不光有CLIP的(de)特(te)征(zheng),还有视觉特(te)征(zheng)的(de)融入,可(ke)(ke)以把更精确的(de)信息编码进来,这(zhei)是一个特(te)点。
第二个特点,我们用骨骼训练控制人物的动作。大家如(ru)果看整个(ge)人(ren)体的(de)模拟,特别(bie)是(shi)整个(ge)人(ren)体的(de)关节,每(mei)个(ge)关节点有它(ta)的(de)自由(you)度,整体上骨骼与人(ren)体也是(shi)非常匹(pi)配的(de)表达。
第三,引入时序模块,保证时序上的一致性。我们和Sora的(de)效果对比,视频效果比Sora的(de)方法有一个非常明显的(de)提升。
我们也把技(ji)术产(chan)品化,部署到(dao)通义APP,欢(huan)迎大家下载体验。
我们的舞蹈生成获得(de)了相当多(duo)的关注(zhu),整个(ge)视频内容播放(fang)达(da)到(dao)了非常(chang)高(gao)的数字。画面中的舞蹈,包括真人、卡通(tong)形象(xiang)(都可以)来跳(tiao)《科目三》。
当看(kan)产品演进(jin)的(de)时候,我(wo)们(men)发现一(yi)个(ge)非常有意思(si)的(de)事情,真人(ren)来跳舞这(zhei)件事是(shi)我(wo)们(men)自己可(ke)以(yi)去实现的(de)能(neng)力,虽然(ran)对于每个(ge)人(ren)而言难度各有不同,舞蹈跳得比较好(hao)的(de)能(neng)跳出比较好(hao)的(de)《科目(mu)三(san)》,舞蹈跳得不好(hao)也能(neng)跳出《科目(mu)三(san)》的(de)样子。但是(shi)对于一(yi)些其它类人(ren)的(de)形象,比如兵马俑,我(wo)们(men)不太可(ke)能(neng)去让它跳《科目(mu)三(san)》。
如果过去要让一个兵马俑跳《科目三》,我们要走的流程是什么?(以前)我们要做一个三维模型,人为设计它的动作,整个成本流程非常高。我们现在只要输入一张照片,兵马俑就可以跳《科目三》。画一幅画,给自己喜欢的宠物拍一张照片,输入喜欢的各种二次元形象,它都可以来跳创作者喜欢的舞蹈。
Animate Anyone赋(fu)予创(chuang)作(zuo)(zuo)(zuo)者(zhe)相当大(da)的灵活度,特(te)别在(zai)之(zhi)前很难创(chuang)作(zuo)(zuo)(zuo)出这样动作(zuo)(zuo)(zuo)视频(pin)的领域(yu),给大(da)家(jia)提供了一个工具。
新的功能也在开发中,包括任意上传一段视频可以来提取骨骼序列,然后把骨骼序列传递的动作信息转移到这张照片上面,生成一段舞蹈。这会再次释(shi)放(fang)大(da)家动(dong)作(zuo)视频创作(zuo)方(fang)面的(de)潜力,甚至一些(xie)有(you)难(nan)度的(de)类人形象,我(wo)们(men)能够通过(guo)手绘骨骼(ge)(ge)点,让它也(ye)跳起(qi)来(lai)舞(wu)蹈(dao)。我(wo)们(men)把手绘的(de)骨骼(ge)(ge)点和自身定(ding)义(yi)的(de)骨骼(ge)(ge)点做一个匹配,来(lai)完成这样一个工作(zuo)。
Animate Anyone发布的时候,四个视频在(社交平台)Twitter上总播放量破亿,还有大量的自发(fa)报道。
四、人物换装视频生成框架Outfit Anyone:一键为模特换装
第二部分,人物换装视频生成框架Outfit Anyone。在一(yi)个文明社会,每个人都有穿(chuan)着服(fu)(fu)饰的(de)需求(qiu)(qiu),对美观度(du)有极(ji)高(gao)的(de)需求(qiu)(qiu)。我们(men)打造了一(yi)个框架,可以给(ji)定一(yi)个服(fu)(fu)饰,然后(hou)让(rang)这个服(fu)(fu)饰穿(chuan)到自己或者模特(te)的(de)身(shen)(shen)上,具备细(xi)节可控、身(shen)(shen)材可调、全(quan)身(shen)(shen)穿(chuan)搭(da)甚至多层服(fu)(fu)饰的(de)叠穿(chuan)等特(te)征,面(mian)临非常细(xi)节问题的(de)处理(li)。

当我们真正要满足大家需求的时候,服饰的一致性非常重要(yao),叠穿怎么(me)和拍得高(gao)质(zhi)量照(zhao)片达到一(yi)样的画(hua)质(zhi)、精度(du),相当(dang)有挑(tiao)战(zhan)。
在一个模特(te)换(huan)装应(ying)用中,将鼠标点(dian)击、上移、下移,点(dian)击试穿(chuan),就会让模特(te)试穿(chuan)衣(yi)服(fu)。我(wo)给定一些特(te)别的(de)材质,比如(ru)香蕉(jiao)(图像)等(deng),我(wo)们也能(neng)把它当(dang)衣(yi)服(fu)一样(yang)(yang)穿(chuan)到身(shen)上来。整个模型(xing)在尝试把各种(zhong)各样(yang)(yang)的(de)布(bu)料或者类似布(bu)料的(de)东西(xi)上身(shen),为创(chuang)意(yi)提供了一个路径。
当(dang)然我们也可以把Outfit Anyone和Animate Anyone结合,去生成(cheng)一段走秀视频(pin)等。相关(guan)(guan)作(zuo)品(pin)获得了相当(dang)的关(guan)(guan)注,在Hugging Face上榜,关(guan)(guan)注度非(fei)常(chang)高。
五、人物视频角色替换框架Motionshop:生成3D模型动作视频
人物视频角色替换框架Motionshop,给定一个视频,提取它的骨骼,同时把骨骼和三维模型做绑定,生成三维模型的动作视频,然后还原在原视频中。这样的视频和Animate Anyone的区别是,3D资产(包括3D IP)也是相当大的领域,特别在游戏和影视,现在的Motionshop方案支持多视角的方案。

Motionshop支持多人替换,这(zhei)样的(de)视频(pin)替换成(cheng)二(er)次(ci)元的(de)角色,后面(mian)的(de)视频(pin)背景相当真实,前面(mian)的(de)人物是(shi)虚拟人物,包括(kuo)实际干活儿(er)的(de)视频(pin)。这(zhei)里也产生了(le)一些对机器(qi)人能力的(de)思(si)考。
在整个方案中,要让整个视频看起来非常真实,除了大模型的能力,我们还运用了渲染的能(neng)力,包括光(guang)线追踪,会从(cong)原视频(pin)估计光(guang)照等(deng),这样让整个视频(pin)看起来非常(chang)一致,没有(you)违和感。
把机器人带到对话场景中,也是(shi)非(fei)(fei)常(chang)有意思的一个(ge)应用。整个(ge)置换(huan)会在场景(jing)中(zhong)有非(fei)(fei)常(chang)好的体现,超越了目前(qian)一些(xie)类似的方(fang)法(fa)所能做到的能力。
六、人物唱演视频生成框架Emote Portrait Alive:让照片开口唱歌
年后我们沿着对人物视频生成独立的思考,不断地向前探索,最新的工作是人物唱演视频生成框架Emote Portrait Alive。给定一张照片,可以让这个人来唱歌、讲话(这项功能已于近期上线通义APP)。当然了,四五年前大家都在研发这样的能力,对于人物视频生成而言,表现力是极(ji)度重要(yao)的(de),如(ru)果今(jin)天达到一个(ge)类人的(de)表现力,在(zai)我来看是很难实现的(de)。

我们要达到专业级,这才是真正大家使用的内容生成。很多生成的视频画质是OK的,但是大家有没有思考这样的问题,比如说文生图、生成的视频,你是这个视频的消费者吗?你会看吗?当然模型可能会生成这个世界上不存在的物种,这是很有意思的,但你会长期去消费这样的内容吗?
我觉得在(zai)做(zuo)AIGC内容生(sheng)成之(zhi)前,不管是基础研究还是应用(yong)思(si)(si)考,大(da)家都(dou)在(zai)高速迭代,每个人都(dou)有(you)自(zi)己的(de)思(si)(si)考和对这个问题(ti)的(de)答案。
在我们生成的(de)过(guo)程中,基于这样一(yi)个(ge)包括动作、唱歌(嘴型)、声音(yin)表演的(de)生成,我们可(ke)以(yi)去(qu)(qu)打造一(yi)个(ge)非(fei)常有吸引力的(de)甚至可(ke)以(yi)去(qu)(qu)做演艺的(de)形象,甚至可(ke)以(yi)做一(yi)个(ge)虚拟的(de)明星(xing)。
以上是薄列峰演讲内容的完整整理。