智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
智东西7月28日报道,刚刚,阿里开源视频生成模型通义万相Wan2.2,包(bao)括(kuo)文生视(shi)频(pin)Wan2.2-T2V-A14B、图生视(shi)频(pin)Wan2.2-I2V-A14B和统一视(shi)频(pin)生成(cheng)Wan2.2-IT2V-5B三款模型。

其中,文生视频模型和图生视频模型为业界首个使用MoE架构的视频生成模型,总参数量为27B,激活参数14B,在同参数规模下可节省约50%的计算资源消耗,在复杂运动生成、人物交互、美学表达等维度上取得了显著提升。5B版本统(tong)一视频(pin)生(sheng)(sheng)成模(mo)型同时(shi)支持文生(sheng)(sheng)视频(pin)和图生(sheng)(sheng)视频(pin),可在消(xiao)费级(ji)显卡部署,是目(mu)前24帧每秒、720P像素级(ji)的(de)生(sheng)(sheng)成速(su)度最(zui)快的(de)基础模(mo)型。

▲通(tong)义万相Wan2.2生成(cheng)的视频
此外,阿里通义万相团队首次推出电影级美学控制系统,将光影、构图、色彩等要素编码成60多个直观的参数(shu)并装进(jin)生(sheng)成(cheng)模(mo)型。Wan2.2目(mu)前(qian)单次可(ke)(ke)生(sheng)成(cheng)5s的高清视频,可(ke)(ke)以随意组合60多(duo)个直观可(ke)(ke)控(kong)的参数(shu)。
官方测(ce)试显示,通义万(wan)相Wan2.2在运(yun)动(dong)质量、画面质量等多项测(ce)试中超越了OpenAI Sora、快(kuai)手Kling 2.0等领先的闭源商(shang)业模(mo)型(xing)。

业界首个使用MoE架构的视频生成模型有哪些技术创新点?5B版本又是如何实现消费级显卡可部署的?通过对话通义(yi)万相(xiang)相(xiang)关技术负责人,智东西对此进行探讨解读。
目前,开发者可(ke)在GitHub、HuggingFace、魔搭社区下载模(mo)型(xing)和(he)代(dai)码,企业可(ke)在阿里(li)云百(bai)炼调(diao)用(yong)模(mo)型(xing)API,用(yong)户还可(ke)在通义万相官(guan)网(wang)和(he)通义APP直接体(ti)验(yan)。
GitHub地址:
//github.com/Wan-Video/Wan2.2
HuggingFace地址:
//huggingface.co/Wan-AI
魔搭社区地址:
//modelscope.cn/organization/Wan-AI
一、推出首个MoE架构视频生成模型,5B版本消费级显卡可跑
根据官方介绍,通义万相Wan2.2的特色包括光影色彩及构图达到电影级,擅长生成复杂运动等,首先来看几个视频生成案例:
提示词1:Sidelit, soft light, high contrast, medium shot, centered composition, clean single subject frame, warm tones. A young man stands in a forest, his head gently lifted, with clear eyes. Sunlight filters through leaves, creating a golden halo around his hair. Dressed in a light-colored shirt, a breeze plays with his hair and collar as the light dances across his face with each movement. Background blurred, featuring distant dappled light and soft tree silhouettes.
(侧光(guang)(guang)照明,光(guang)(guang)线柔和(he),高对比(bi)度,中(zhong)景镜头,居中(zhong)构图,画(hua)面(mian)简洁且(qie)主体单一(yi),色调(diao)温暖。一(yi)名年轻(qing)男子伫(zhu)立在森林中(zhong),头部(bu)微(wei)微(wei)上(shang)扬,目光(guang)(guang)清澈。阳光(guang)(guang)透过树叶洒落,在他(ta)发间勾勒出一(yi)圈金(jin)色光(guang)(guang)晕。他(ta)身着浅色衬(chen)衫(shan),微(wei)风拂动着他(ta)的(de)(de)发丝与衣领,每一(yi)个细微(wei)的(de)(de)动作都(dou)让(rang)光(guang)(guang)影(ying)在他(ta)脸上(shang)流转跳(tiao)跃。背景虚(xu)化,隐约可(ke)见远处(chu)斑(ban)驳的(de)(de)光(guang)(guang)影(ying)和(he)树木柔和(he)的(de)(de)剪影(ying)。)
视频输出的gif截取:

提示词2:A man on the run, darting through the rain-soaked back alleys of a neon-lit city night, steam rising from the wet pavement. He’s clad in a drenched trench coat, his face etched with panic as he sprints down the alley, constantly looking over his shoulder. A chase sequence shot from behind, immersing the viewer deeply, as if the pursuers are right behind the camera lens.
(一(yi)个在逃的(de)(de)男人,在霓(ni)虹灯点亮的(de)(de)城市(shi)夜色中,冲过被雨水浸透的(de)(de)后巷(xiang),潮湿的(de)(de)路面上蒸腾起雾气。他裹着一(yi)件湿透的(de)(de)风衣,脸上刻满惊(jing)慌,顺着巷(xiang)子狂奔,不断回头张望。这段追(zhui)逐戏(xi)从后方拍摄(she),将(jiang)观众深深带入(ru)情境,仿佛追(zhui)捕者就在镜头背(bei)后。)
视频输出的gif截取:

提示词3:A purely visual and atmospheric video piece focusing on the interplay of light and shadow, with a corn train as the central motif. Imagine a stage bathed in dramatic, warm spotlights, where a corn train, rendered as a stark silhouette, moves slowly across the space. The video explores the dynamic interplay of light and shadow cast by the train, creating abstract patterns, shapes, and illusions that dance across the stage. The soundtrack should be ambient and minimalist, enhancing the atmospheric and abstract nature of the piece.
(这(zhei)是一(yi)部纯粹以视(shi)觉和氛围见(jian)长(zhang)的(de)影像作品,核心聚焦光影的(de)交织互动(dong),以玉米(mi)列(lie)(lie)车为(wei)中心意象。试(shi)想一(yi)个舞台,被富有戏剧(ju)张力的(de)暖调聚光灯笼罩,一(yi)列(lie)(lie)玉米(mi)列(lie)(lie)车化作鲜明的(de)剪影,在空间中缓缓穿行。影片探寻列(lie)(lie)车投下的(de)光影所形(xing)(xing)成(cheng)的(de)动(dong)态(tai)呼应——它们在舞台上舞动(dong),幻化出抽(chou)象的(de)图案、形(xing)(xing)态(tai)与(yu)视(shi)觉幻象。配乐应采用氛围化的(de)极简风格(ge),以此强化作品的(de)氛围感与(yu)抽(chou)象特质。)
视频输出的gif截取:

背后,生(sheng)(sheng)成(cheng)这(zhei)些视频(pin)(pin)的生(sheng)(sheng)成(cheng)模(mo)型(xing)有什(shen)么技术创(chuang)新点(dian)?这(zhei)要(yao)从视频(pin)(pin)生(sheng)(sheng)成(cheng)模(mo)型(xing)在扩(kuo)展规模(mo)(scale-up)时(shi)面临(lin)的挑战说起,主(zhu)要(yao)原因在于视频(pin)(pin)生(sheng)(sheng)成(cheng)需(xu)要(yao)处理的视频(pin)(pin)token长度(du)远超(chao)过文(wen)本和图像,这(zhei)导致计算资源消耗巨大,难以支撑大规模(mo)模(mo)型(xing)的训练与部(bu)署。
混合专家模型(xing)(xing)(MoE)架(jia)构作为一种广泛(fan)应(ying)用于(yu)大型(xing)(xing)语言模型(xing)(xing)领域的模型(xing)(xing)扩展方式,通过选择专门的专家模型(xing)(xing)处理(li)输(shu)入的不同(tong)部分,扩种模型(xing)(xing)容量(liang)却不增加额外的计(ji)算(suan)负载。
1、首个MoE架构的视频生成模型,高噪+低噪专家模型“搭档”
万相(xiang)2.2模型将MoE架构(gou)实(shi)现(xian)到了(le)视频生(sheng)成扩散模型(Diffusion Model)中。考虑(lv)扩散模型的(de)去(qu)噪(zao)过程存在阶段(duan)性差异(yi),高(gao)噪(zao)声阶段(duan)关(guan)注(zhu)生(sheng)成视频的(de)整(zheng)体布局,低噪(zao)声阶段(duan)则(ze)更关(guan)注(zhu)细节的(de)完善(shan),万相(xiang)2.2模型根(gen)据去(qu)噪(zao)时间(jian)步进行(xing)了(le)专(zhuan)家模型划(hua)分。
相(xiang)比传统架(jia)构(gou),通义万相(xiang)Wan2.2 MoE在减少(shao)计算负载的同时有哪(na)些(xie)关键效果提升?业界(jie)首(shou)个使(shi)用MoE架(jia)构(gou),团队主要(yao)攻克(ke)了哪(na)些(xie)难(nan)点?
通义万相团队相关负责人告(gao)诉智东西,团队并(bing)不(bu)是将语言模型(xing)(xing)(xing)中的MoE直接套(tao)用(yong)到视频模型(xing)(xing)(xing),而(er)是用(yong)适配了视频生成(cheng)扩(kuo)散模型(xing)(xing)(xing)的MoE架(jia)构(gou)。该架(jia)构(gou)将整个(ge)去(qu)噪过程划(hua)分(fen)为高(gao)噪声和低噪声两(liang)个(ge)阶段(duan):在高(gao)噪声阶段(duan),模型(xing)(xing)(xing)的任务是生成(cheng)视频大体的轮廓与时空布局;在低噪声阶段(duan),模型(xing)(xing)(xing)主要是用(yong)来细(xi)化细(xi)节纹理和局部(bu)。每(mei)(mei)个(ge)阶段(duan)对应(ying)一个(ge)不(bu)同的专(zhuan)家(jia)模型(xing)(xing)(xing),从而(er)使每(mei)(mei)个(ge)专(zhuan)家(jia)专(zhuan)注特(te)定的任务。
“我(wo)们的(de)(de)(de)创新点是找到高阶噪(zao)声和(he)低噪(zao)声阶段(duan)的(de)(de)(de)划分(fen)点。不合理(li)的(de)(de)(de)划分(fen)会导致MoE架构的(de)(de)(de)增(zeng)益效(xiao)(xiao)果不足。我(wo)们引入了(le)一(yi)个简(jian)单(dan)而有(you)效(xiao)(xiao)的(de)(de)(de)新指(zhi)标(biao)——信噪(zao)比来(lai)进行指(zhi)导,根(gen)据信噪(zao)比范(fan)围对高噪(zao)和(he)低噪(zao)的(de)(de)(de)时间T进行划分(fen)。通过(guo)这(zhei)种MoE的(de)(de)(de)架构,我(wo)们总参数量相比于2.1版本扩(kuo)大了(le)一(yi)倍,但训练和(he)推理(li)每阶段(duan)的(de)(de)(de)激活值还是14B,所以整(zheng)体的(de)(de)(de)计算(suan)量和(he)显(xian)存并没有(you)显(xian)著增(zeng)加(jia),效(xiao)(xiao)果上是有(you)效(xiao)(xiao)地提升了(le)运(yun)动复杂运(yun)动和(he)美学的(de)(de)(de)生存能力(li)。”这(zhei)位负责(ze)人(ren)说(shuo)。

▲万相2.2的28B版(ban)本由(you)高(gao)噪专(zhuan)家模型(xing)和低噪专(zhuan)家模型(xing)组(zu)成
2、数据扩容提高生成质量,支撑与美学精调
较上一代(dai)万相(xiang)2.1模型(xing),万相(xiang)2.2模型(xing)的(de)训练(lian)数(shu)(shu)据实现了显著扩充与(yu)升级,其中图像(xiang)数(shu)(shu)据增(zeng)加65.6%,视频数(shu)(shu)据增(zeng)加83.2%。数(shu)(shu)据扩容提升了模型(xing)的(de)泛(fan)化能(neng)力与(yu)创作多样性,使(shi)得模型(xing)在复(fu)杂(za)场(chang)景、美学表达和运动生成方面(mian)表现更加出(chu)色。
模型还引入了专(zhuan)门的(de)美(mei)学精调阶段,通过细粒度地训练,使得视频生(sheng)成(cheng)的(de)美(mei)学属(shu)性能(neng)够与(yu)用户(hu)给定的(de)Prompt(提示词)相对应。
万(wan)相2.2模型(xing)在训练过程(cheng)中融(rong)合(he)了电(dian)影(ying)工业(ye)标准的(de)(de)光影(ying)塑造、镜(jing)头构图法则(ze)和(he)色彩心理学(xue)体系(xi),将专业(ye)电(dian)影(ying)导演的(de)(de)美学(xue)属(shu)性(xing)进行了分类,并细致(zhi)整理成美学(xue)提示词(ci)。
因此,万相(xiang)2.2模型(xing)能(neng)够根据用(yong)(yong)户的美(mei)学提示词准确(que)理解(jie)并响应(ying)用(yong)(yong)户的美(mei)学需求。训练后期,模型(xing)还通(tong)过强化学习(RL)技(ji)术(shu)进(jin)行进(jin)一步的微调,有效地对齐(qi)人类审美(mei)偏好。
3、高压缩比视频生成,5B模型可部署消费级显卡
为了(le)更高效地部署视频生成模(mo)型,万相2.2探索了(le)一种(zhong)模(mo)型体积更小、信息下降率更高的技术路径。
通义万相Wan2.2开(kai)源5B版本消费级(ji)显卡(ka)可部(bu)署,该设计如何平衡压缩率与重建质量?
通(tong)义(yi)万相团队(dui)相关负(fu)责(ze)人告诉(su)智东(dong)西,为了(le)兼(jian)顾性能(neng)与部(bu)署的(de)(de)便捷性,Wan2.2版(ban)本(ben)(ben)开发了(le)一个(ge)5B小参(can)数版(ban)。这(zhei)一版(ban)本(ben)(ben)比(bi)2.1版(ban)本(ben)(ben)的(de)(de)14B模型小了(le)一半多。同时团队(dui)采用了(le)自研高(gao)压(ya)缩(suo)比(bi)VAE结构,整体实现了(le)在特(te)征空间上16×16的(de)(de)高(gao)压(ya)缩(suo)率,是2.1版(ban)本(ben)(ben)压(ya)缩(suo)率(8×8)的(de)(de)四倍,从而显著降低了(le)显存占(zhan)用。
为了(le)解决高压缩比带(dai)来(lai)的(de)问题,团队在这个(ge)VAE的(de)训(xun)练(lian)中引(yin)入(ru)了(le)非对称的(de)编码结构以及残(can)差采样机制;同时其还增加(jia)了(le)这个(ge)隐空间的(de)维度(du),把原(yuan)来(lai)的(de)2.1版本的(de)16位增加(jia)到(dao)了(le)48位。这样使模(mo)型在更大的(de)压缩率下保持了(le)良好(hao)的(de)重建(jian)质量(liang)。
此(ci)次开(kai)源的(de)5B版本采用了高(gao)(gao)压缩比VAE结构,在(zai)视频生成(cheng)的(de)特(te)征空间(jian)实现了视频高(gao)(gao)度(du)(H)、宽度(du)(W)与时间(jian)(T)维度(du)上(shang)(shang)32×32×4的(de)压缩比,有效减少了显存占(zhan)用。5B版本可在(zai)消费级显卡上(shang)(shang)快速部署,仅需22G显存即(ji)可在(zai)数分钟内生成(cheng)5秒高(gao)(gao)清视频。此(ci)外,5B版本实现了文(wen)本生成(cheng)视频和图像生成(cheng)视频的(de)混合(he)训练,单一模型可满足两大核心任务(wu)需求。
此次开(kai)(kai)源中,万相(xiang)2.2也同步公开(kai)(kai)了(le)全新(xin)的高压(ya)(ya)缩(suo)比VAE结构,通(tong)过引入残差采样结构和非对(dui)称编解码框架,在(zai)更高的信(xin)息压(ya)(ya)缩(suo)率下依然保(bao)持了(le)出色的重建质量。
二、60+专业参数引入,实现电影级美学控制
本次(ci),阿里通义万相团队还推出了“电(dian)影(ying)级(ji)美(mei)学控制系统(tong)”,通过(guo)(guo)60+专(zhuan)业参数赋(fu)能, 将专(zhuan)业导演的(de)光影(ying)、色彩(cai)、镜头(tou)语言(yan)装(zhuang)进(jin)生成模型。用户通过(guo)(guo)直观(guan)选(xuan)择美(mei)学关键(jian)词,即可智能生成电(dian)影(ying)质感的(de)视频画面。
许多创作者(zhe)都(dou)遇到(dao)过这样(yang)的(de)难题:明(ming)明(ming)脑海(hai)中有(you)(you)充满电影感的(de)画面,如王家卫式的(de)霓(ni)虹(hong)夜晚、诺兰(lan)式的(de)硬(ying)核实景(jing)、韦斯·安(an)德森式的(de)对称构图(tu),实际生成的(de)效果(guo)却总差强人意——光线平淡(dan)像随手拍、构图(tu)随意缺乏张(zhang)力(li)、色调混(hun)乱(luan)没(mei)有(you)(you)氛围。
通义(yi)万相团队认为,根本原因在(zai)于,真(zhen)正(zheng)的(de)(de)电影感源于对(dui)光影、色彩、镜头语言三(san)大美学(xue)体系的(de)(de)精密控制。这些(xie)专业(ye)能(neng)力以往需(xu)要多年的(de)(de)学(xue)习(xi)和实践才能(neng)掌握。Wan2.2的(de)(de)全新功能(neng)可以解决这一(yi)核心痛点。
智(zhi)能(neng)美学词响应(ying)是系统的(de)核心创新(xin)。用户无需理解(jie)复杂的(de)电影术语,只(zhi)需在中文界面选择想(xiang)要(yao)的(de)美学关键词,如黄昏、柔(rou)光、侧光、冷色调(diao)、对称构(gou)图、特写(xie)等,系统将(jiang)自动理解(jie)并精确响应(ying),在后(hou)台智(zhi)能(neng)调(diao)整(zheng)灯光属性、摄像机(ji)参数、色彩滤镜等数十(shi)项技术指标。

三、可生成复杂运动,强化物理世界还原能力
在文(wen)生(sheng)视频领域,生(sheng)成基础(chu)、平缓的(de)(de)动作已非(fei)难事,但如何(he)生(sheng)成大(da)幅(fu)度、高复(fu)杂(za)度、高细(xi)节的(de)(de)动作,如街舞、体操(cao)等,始(shi)终是(shi)技(ji)术跃(yue)迁的(de)(de)关键挑战。
Wan2.2模型针对面部表(biao)情,手部动(dong)作(zuo),单(dan)人(ren)(ren)、多人(ren)(ren)交互、复杂动(dong)作(zuo)等方(fang)面进(jin)行了专门(men)优化,大幅(fu)提升了细微(wei)表(biao)情、灵(ling)巧手势(shi)、单(dan)人(ren)(ren)与(yu)多人(ren)(ren)交互、复杂体育运动(dong)等生成能力。
比如,Wan2.2构建了人类面部原子动作(zuo)和情绪(xu)表情系(xi)统。它不仅能生成如“开怀大笑”、“轻蔑(mie)冷笑”、“惊恐屏息”等典型情绪(xu)表达,更能细腻刻画“羞涩微(wei)笑中(zhong)的(de)(de)脸颊微(wei)红”、“思考(kao)时(shi)不经(jing)意的(de)(de)挑眉(mei)”、“强忍泪(lei)水时(shi)的(de)(de)嘴唇颤抖”等复杂微(wei)表情,从而精准(zhun)传达复杂的(de)(de)人物情绪(xu)与内心状(zhuang)态。
比如,Wan2.2还构(gou)建(jian)了丰富(fu)的手(shou)(shou)部(bu)动作(zuo)系统,能够生成从力量传递(di)的基础物理操作(zuo)、精细器具(ju)交互的复(fu)杂控制(zhi),到蕴含文化语义的手(shou)(shou)势符号体系,乃至专业领(ling)域的精密(mi)动作(zuo)范式等(deng)手(shou)(shou)部(bu)动作(zuo)。
此外(wai)值(zhi)得一提的(de)是,Wan2.2模型(xing)针对多项基础物理(li)定律与现象进行(xing)了优化。这(zhei)包括(kuo)对力学、光学以及流体力学和常(chang)见物理(li)状态(tai)变化的(de)学习,力求(qiu)构建高度(du)真(zhen)实(shi)的(de)物理(li)基础。
在(zai)复(fu)杂(za)(za)动态场景的(de)处(chu)理(li)(li)上,Wan2.2专(zhuan)门优化了多(duo)目(mu)标(biao)生成与(yu)(yu)交互场景。它能够(gou)稳定地生成多(duo)个独(du)立物(wu)(wu)体(ti)或角色同时进行(xing)的(de)复(fu)杂(za)(za)动作及其相互影响(xiang)。此外,Wan2.2 对复(fu)杂(za)(za)空(kong)间(jian)关系的(de)理(li)(li)解(jie)与(yu)(yu)呈现也(ye)得到大幅增强,能够(gou)精确理(li)(li)解(jie)物(wu)(wu)体(ti)在(zai)三(san)维空(kong)间(jian)中的(de)相对位置、距离、深度、遮挡的(de)空(kong)间(jian)结构变化。
结语:突破视频模型规模瓶颈,推动AI视频生成专业化演进
Wan2.2首创(chuang)MoE架构视频(pin)生成模(mo)型,为突破视频(pin)模(mo)型规模(mo)瓶颈提(ti)供了新(xin)路径;5B版本(ben)大幅降(jiang)低高质量视频(pin)生成门槛,加速生成式AI工具(ju)普及(ji)。
“电影级美学(xue)控制”将(jiang)专(zhuan)业(ye)影视标准体系化融入AI,有望推动AI视频生成工具向(xiang)更加(jia)专(zhuan)业(ye)化的(de)方向(xiang)发展,助广告、影视等行(xing)业(ye)高效(xiao)产(chan)出专(zhuan)业(ye)内容;其复杂运动与(yu)物(wu)理还原(yuan)能力(li)的(de)提升,显著增强(qiang)了(le)生成视频的(de)真(zhen)实感,为教育、仿(fang)真(zhen)等多领域(yu)应用奠定基础。