智东西(公众号:zhidxcom)
作者|程茜
编辑|心缘
智东西2月26日报道,昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!
万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模(mo)型生成速度较快且能兼容(rong)所有消费(fei)级GPU,两个模型的(de)全(quan)部推理代码和权重已全(quan)部开源。



强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频(pin)进行编码(ma)和解码(ma),同时(shi)保留时(shi)间信息(xi)。
万(wan)相系(xi)列(lie)模(mo)型(xing)的研发团队(dui)基于运动(dong)质(zhi)量、视(shi)觉(jue)质(zhi)量、风格和多目标等14个主要维(wei)度和26个子维(wei)度进(jin)行(xing)了模(mo)型(xing)性能(neng)(neng)评估,该模(mo)型(xing)实现5项第一,万(wan)相系(xi)列(lie)模(mo)型(xing)能(neng)(neng)够稳定展现各种复杂的人物肢体运动(dong),如旋转(zhuan)、跳跃、转(zhuan)身、翻(fan)滚等;还(hai)能(neng)(neng)还(hai)原碰撞、反弹、切割等复杂真实物理场景。
官方Demo中(zhong)“熊(xiong)猫用滑板炫技”的视频(pin),展(zhan)示了一(yi)只熊(xiong)猫连续完成(cheng)多个高难度动作:

阿里云通(tong)义(yi)实(shi)验室的(de)研究人员昨(zuo)夜23点直播介绍了万相2.1的(de)模型及技(ji)术(shu)细节。

此外(wai),阿里通(tong)义官方文(wen)章还提到(dao),万相2.1的开源,标志(zhi)着(zhe)阿里云实现了(le)全模(mo)态、全尺寸的开源。
目前,万相2.1支持访问通义官(guan)网在(zai)线(xian)体(ti)验或者在(zai)Github、HuggingFace、魔(mo)搭(da)社区下载进(jin)行本地部(bu)署体(ti)验。
通(tong)义官网体(ti)验地址(zhi)://tongyi.aliyun.com/wanxiang/
Github: //github.com/Wan-Video/Wan2.1
一、生成能力全方位开挂,文字、特效、复杂运动都在行
在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力。
万相(xiang)2.1支持生(sheng)成走路、吃饭等基(ji)本(ben)的(de)日常(chang)运动,还能还原(yuan)复杂的(de)旋转、跳(tiao)跃(yue)、转身跳(tiao)舞以及(ji)击剑、体操等体育运动类(lei)的(de)动作(zuo)。

此外,其能在遵循(xun)物理世界规律的(de)(de)前提下,还原重力(li)、碰撞(zhuang)、反弹、切割(ge)等物理场景(jing),并(bing)生(sheng)成万物生(sheng)长等有(you)创意的(de)(de)视频。

在画(hua)质(zhi)方面,万相2.1生成的(de)视频达到影院级别画(hua)质(zhi),同时理解(jie)多语言(yan)、长文本指令,呈现(xian)角色的(de)互(hu)动。

同时,万相2.1是(shi)首次在开源模(mo)型中(zhong)支持中(zhong)英文文字(zi)渲染,中(zhong)英文艺术(shu)字(zi)生成。

阿(a)里云还公(gong)开了多个万相2.1生(sheng)成(cheng)视频的Demo。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

不过(guo)(guo),纸(zhi)上(shang)福字左上(shang)角的一点并没有书写过(guo)(guo)程,而(er)是突然(ran)在视频后期(qi)出(chu)现。
纪实摄影风格,低空追踪视角,一辆宝马M3在蜿蜒的山路上疾驰,车轮扬起滚滚尘土云。高速摄像机定格每个惊险过弯瞬间,展现车辆极致的操控性能。背景是连绵起伏的山脉和蓝天。画面充满动感,轮胎与地面摩擦产生的烟雾四散。中景,运动模糊效果,强调速度感。

可以看到,视频镜(jing)头随着汽车的漂移(yi)加速,捕捉到了每一个画面(mian),并且在漂移(yi)时路边还有与地面(mian)摩擦飞扬(yang)的尘土。
微观摄影,珊瑚管虫和霓虹刺鳍鱼在五彩斑斓的海底世界中游弋。珊瑚管虫色彩鲜艳,触手轻轻摇曳,仿佛在水中舞蹈;霓虹刺鳍鱼身体闪耀着荧光,快速穿梭于珊瑚之间。画面充满奇幻视觉效果,真实自然,4k高清画质,展现海底世界的奇妙与美丽。近景特写,水下环境细节丰富。

整个画面色彩鲜艳(yan),对(dui)提(ti)示词中的细节基本(ben)都表现到了。
中国古典风格的动画角色,一个身穿淡紫色汉服的女孩站在樱花树下。她有着大大的眼睛和精致的五官,头发上装饰着粉色的花朵。女孩表情温柔,眼神中带着一丝忧郁,仿佛在思考什么。背景是朦胧的古建筑轮廓,花瓣在空中轻轻飘落,营造出一种宁静而梦幻的氛围。近景特写镜头,强调女孩的面部表情和细腻的光影效果。

视频对“眼(yan)神中带着(zhe)一丝忧郁(yu),仿佛在思考什么”这类复杂的(de)指令(ling),也在女孩的(de)眼(yan)神中得到了(le)呈现。
二、优于其他开闭源模型,可兼容消费级显卡
为了评(ping)估万相2.1的性能(neng),研发人员基于1035个(ge)内部(bu)提示(shi)集,在14个(ge)主要维(wei)度(du)和(he)26个(ge)子维(wei)度(du)上进(jin)行了测试,然后通过对每(mei)个(ge)维(wei)度(du)的得(de)分进(jin)行加权(quan)计算(suan)来计算(suan)总(zong)分,其中利用了匹配过程中人类偏好得(de)出的权(quan)重。详细结果(guo)如下表所示(shi):

研发人(ren)员还对文(wen)生(sheng)(sheng)视频(pin)、图生(sheng)(sheng)视频(pin)以(yi)及模型在不同GPU上的计算(suan)效率进行了(le)评(ping)估。
文生视(shi)频的评估结果:

图生视频的评(ping)估结果:

其(qi)结果显示(shi),万相2.1均优于其(qi)他开源(yuan)、闭源(yuan)模(mo)型。
不同GPU上(shang)的计算效率:

可以看到(dao),13亿参(can)数模型可兼容消(xiao)费级显卡(ka),并(bing)实现较快的生成(cheng)速度。
三、模型性能提升大杀器:3D VAE、可扩展预训练策略、大规模数据链路构建……
基于主(zhu)流(liu)的DiT和线性噪(zao)声(sheng)轨(gui)迹Flow Matching范式,万相2.1基于自(zi)研因果3D VAE、可扩展的预训练(lian)策略、大规(gui)模数据链(lian)路构建以及自(zi)动化评(ping)估指标提(ti)升了模型最(zui)终性能表现(xian)。
VAE是视频(pin)生成领域广(guang)泛(fan)使(shi)用的模块,可(ke)以使(shi)得视频(pin)模型(xing)在接近无损情况(kuang)下(xia)有效降低资源占用。
在(zai)(zai)算法(fa)设(she)计上,万(wan)相基于主流DiT架构和线性(xing)噪声轨迹(ji)Flow Matching范式,研(yan)发了高(gao)(gao)效(xiao)的(de)(de)因果3D VAE、可扩展的(de)(de)预训练(lian)策略等。以3D VAE为(wei)例,为(wei)了高(gao)(gao)效(xiao)支持任意长(zhang)(zhang)度视(shi)频(pin)的(de)(de)编码(ma)和解(jie)码(ma),万(wan)相在(zai)(zai)3D VAE的(de)(de)因果卷积模块中实现了特征缓存机制,从而(er)代(dai)替直接对长(zhang)(zhang)视(shi)频(pin)端(duan)到(dao)端(duan)的(de)(de)编解(jie)码(ma)过程(cheng),实现了无限(xian)长(zhang)(zhang)1080P视(shi)频(pin)的(de)(de)高(gao)(gao)效(xiao)编解(jie)码(ma)。
此外,通过将空间降(jiang)采样(yang)压缩提前,在不(bu)损失性能(neng)的情况(kuang)下进一(yi)步减少了29%的推理时内(nei)存占用(yong)。

万相2.1模型架构基于(yu)主流的(de)(de)视(shi)频(pin)DiT结(jie)构,通过(guo)Full Attention机制确(que)保长时程时空依赖的(de)(de)有(you)效(xiao)建模,实(shi)现时空一致的(de)(de)视(shi)频(pin)生成。
采样策(ce)略上,模型(xing)的(de)整体(ti)训练则(ze)采用了线性噪声轨迹的(de)流匹配(pei)(Flow Matching)方法(fa)。如(ru)模型(xing)架构图所示,模型(xing)首先(xian)使用多语(yu)(yu)(yu)言umT5编(bian)(bian)码(ma)器对(dui)(dui)输入(ru)文本(ben)进行语(yu)(yu)(yu)义(yi)(yi)编(bian)(bian)码(ma),并通过逐层(ceng)的(de)交叉(cha)注(zhu)意力层(ceng),将文本(ben)特(te)征向量(liang)注(zhu)入(ru)到(dao)每(mei)个Transformer Block的(de)特(te)征空间(jian),实现细粒度的(de)语(yu)(yu)(yu)义(yi)(yi)对(dui)(dui)齐。
此外,研发人员通过一(yi)组在(zai)(zai)所有(you)Transformer Block中(zhong)共享参(can)数(shu)(shu)的MLP,将(jiang)输入的时(shi)间(jian)步特征(zheng)T映射(she)为模型(xing)中(zhong)AdaLN层的可学(xue)习缩(suo)放与偏置参(can)数(shu)(shu)。在(zai)(zai)相同(tong)参(can)数(shu)(shu)规模下(xia),这(zhei)种共享时(shi)间(jian)步特征(zheng)映射(she)层参(can)数(shu)(shu)的方法在(zai)(zai)保持模型(xing)能(neng)力同(tong)时(shi)可以显(xian)著降低参(can)数(shu)(shu)和计算量(liang)。

数(shu)据(ju)方面,研究人员整理(li)(li)(li)并去重了(le)一个包含大(da)量(liang)图(tu)像(xiang)和视(shi)频数(shu)据(ju)的(de)候选(xuan)数(shu)据(ju)集。在数(shu)据(ju)整理(li)(li)(li)过程中,其设计(ji)了(le)四步(bu)数(shu)据(ju)清理(li)(li)(li)流程,重点关(guan)注基本维(wei)度、视(shi)觉质(zhi)量(liang)和运动质(zhi)量(liang)。通过强大(da)的(de)数(shu)据(ju)处理(li)(li)(li)流程快(kuai)速(su)获得(de)高质(zhi)量(liang)、多样化(hua)、大(da)规模的(de)图(tu)像(xiang)和视(shi)频训(xun)练集。

训练阶段,对于(yu)文本、视频编码模块,研(yan)究人员使用DP和FSDP组合(he)的分(fen)布式策(ce)略;对于(yu)DiT模块采用DP、FSDP、RingAttention、Ulysses混合(he)的并行(xing)策(ce)略。
基(ji)于万(wan)相2.1模(mo)型参数量较小(xiao)和长序列带来(lai)的(de)计算量较大的(de)特征,结合集群计算性能(neng)和通信带宽采用(yong)FSDP切分模(mo)型,并在(zai)FSDP外嵌套DP提(ti)升多机拓(tuo)展性,FSDP和DP的(de)通信均能(neng)够(gou)完全(quan)被计算掩(yan)盖(gai)。
为(wei)了(le)切分长(zhang)序列(lie)训练下的Activation,DiT部分使用(yong)了(le)Context Parallelism (CP) 对序列(lie)维度进行(xing)切分,并使用(yong)外层RingAttention、内层Ulysses的2D CP的方案减少CP通信开销。
此(ci)外,为了(le)提升端到端整(zheng)体效(xiao)率,在文本、视频编码(ma)和DiT模块间进(jin)行高(gao)效(xiao)策略切换避免计算冗余。具体来(lai)说,文本、视频编码(ma)模块每个设备读不(bu)同数(shu)据,在进(jin)入DiT之前,通过循(xun)环广(guang)播(bo)方(fang)式将不(bu)同设备上的数(shu)据同步,保证CP组里中数(shu)据一(yi)样。
在(zai)推理阶段,为(wei)了使(shi)用多卡减少生成单个视频的延迟,选择CP来进行分布(bu)式加(jia)速。此外(wai),当模(mo)型较大(da)时,还需要(yao)进行模(mo)型切分。
一方面(mian),模(mo)(mo)型(xing)(xing)切(qie)(qie)分(fen)策(ce)略时,单(dan)卡显存不(bu)足时必(bi)须(xu)考虑模(mo)(mo)型(xing)(xing)切(qie)(qie)分(fen)。鉴(jian)于(yu)序(xu)列长度通常较长,与张量(liang)并(bing)行(xing)(TP)相比,FSDP的通信开(kai)销更(geng)小,并(bing)且可以(yi)被计算(suan)掩盖(gai)。因此,研(yan)究人员(yuan)选择FSDP方法进(jin)行(xing)模(mo)(mo)型(xing)(xing)切(qie)(qie)分(fen)(注意:这里(li)仅做切(qie)(qie)分(fen)权重,而不(bu)做数据并(bing)行(xing));另(ling)一方面(mian)采(cai)用(yong)序(xu)列并(bing)行(xing)策(ce)略:采(cai)用(yong)与训(xun)练阶段相同的2D CP方法:外层(ceng)(跨(kua)机(ji)(ji)器)使用(yong)RingAttention,内层(ceng)(机(ji)(ji)器内)使用(yong)Ulysses。
在(zai)万相2.1 140亿(yi)参数模型上,使用FSDP和2D CP的组合方法,在(zai)多卡上具有如下(xia)图所(suo)示的近线性加(jia)速:

显(xian)存(cun)(cun)优化(hua)方面,研究(jiu)人员采用(yong)(yong)分层的显(xian)存(cun)(cun)优化(hua)策略,选择一(yi)些层进行Offload,其他层根据不同算(suan)子(zi)计算(suan)量和(he)显(xian)存(cun)(cun)占用(yong)(yong)的分析使用(yong)(yong)细粒度(du)Gradient Checkpointing(GC)进一(yi)步优化(hua)Activation显(xian)存(cun)(cun)。最后利用(yong)(yong)PyTorch显(xian)存(cun)(cun)管理机制,解(jie)决显(xian)存(cun)(cun)碎片(pian)问题。
在训(xun)练稳定性方面,万相(xiang)2.1借助于阿里云(yun)训(xun)练集(ji)群(qun)的(de)智能化调度、慢机检(jian)测以(yi)及自(zi)愈能力,在训(xun)练过程中(zhong)可以(yi)自(zi)动识别故障节点并快(kuai)速(su)重(zhong)启(qi)任务(wu),平均重(zhong)启(qi)时间为39秒,重(zhong)启(qi)成功率超过98.23%。
结语:开启全模态开源新时代
2023年(nian)8月,阿(a)里云率先开源(yuan)Qwen模(mo)型(xing),正式(shi)拉开了开源(yuan)大(da)模(mo)型(xing)的序幕。随(sui)后,Qwen1.5、Qwen2、Qwen2.5等四代(dai)模(mo)型(xing)相(xiang)继开源(yuan),覆盖了从0.5B到110B的全(quan)尺寸范围,涵盖大(da)语言、多(duo)模(mo)态(tai)等领域。目前其(qi)千问(wen)(Qwen)衍生模(mo)型(xing)数量已超过10万个(ge)。其(qi)官方文章(zhang)显(xian)示,随(sui)着(zhe)万相(xiang)的开源(yuan),阿(a)里云实现了全(quan)模(mo)态(tai)、全(quan)尺寸的开源(yuan)。
从大语言模(mo)型(xing)到视(shi)觉生成模(mo)型(xing),从基础(chu)模(mo)型(xing)到多样化的衍生模(mo)型(xing),开源生态(tai)的发展正不(bu)断被注(zhu)入强大的动力。