智东西(公众号:zhidxcom)
作者 | 陈家阳
编辑 | 漠影
智东(dong)西4月(yue)18日消息,通义万(wan)相首尾帧生(sheng)视(shi)频模型Wan2.1-FLF2V-14B昨日宣(xuan)布开源,用(yong)户仅(jin)需上传两张照片作(zuo)为首帧和尾帧,就能得到一段5秒720p的高清视(shi)频。
该模型(xing)还可以开启(qi)灵感模式,通(tong)过(guo)AI智(zhi)能扩(kuo)写对(dui)视频创(chuang)意(yi)进行描述,提升画面(mian)丰富度与(yu)表现力,从而满足用户更可控、更个性化的视频生(sheng)成(cheng)需求。
用(yong)户当前可以登陆通义万相官网(wang)免费体验(yan)新发布(bu)的首尾帧生视频模型,也(ye)能到 Github、Hugging Face或(huo)魔搭社(she)区(Modelscope)下载该模型进(jin)行二次开发,解锁更(geng)多创意可能。
此(ci)外(wai),凭借14B的参数量(liang),该模型成为(wei)全球首(shou)个百亿参数规模的开源首(shou)尾(wei)帧生视(shi)频模型。
体验地址:
开源地址:
1.Github:
2.Hugging Face:
3.魔搭社区:
一、细节处理、情感表达、各种运镜,都不在话下
通义万相在官方公众号(hao)推文(wen)中放(fang)出了几(ji)个新鲜(xian)的演示(shi)案例(li),展示(shi)出新模(mo)型出色的工作能力。

▲提(ti)示词(ci):“黑(hei)暗(an)的环境(jing),一(yi)群人(ren)站(zhan)成一(yi)列,背对镜(jing)头,站(zhan)在一(yi)束光(guang)前,镜(jing)头上移,俯拍出光(guang)源全貌。”

该模型可以真(zhen)实(shi)地(di)还原物理规律,在(zai)光(guang)源出现时,地(di)面上的人影会(hui)随着(zhe)光(guang)束移(yi)动而发生变(bian)化。
在复杂(za)的动态(tai)场景中,通义万相首尾帧(zhen)生视频模型(xing)也能做(zuo)到对内容细节进(jin)行高精度(du)处理。比如女孩的衣服会随着跑(pao)步时的肢体动作(zuo)而出(chu)现褶皱、深(shen)褐色的头发(fa)在光线影(ying)响下不时变换颜(yan)色等,让视频看(kan)上去更加(jia)逼真。

▲提示(shi)词:“写实风(feng)格,一个身穿粉色运动服的女生在城市街道中跑步,镜头先特(te)写女生的脸部,然后记录(lu)下女生转过(guo)街角向前跑去的背影。”

当生成首尾帧衔接画面时,通义万相首尾帧生视(shi)频模型能够根据不同运镜方式对视(shi)频场(chang)景(jing)进(jin)行丰(feng)富和完善。

▲提示词(ci):“漫画(hua)风格(ge),黑暗中,一个男人正在看向一束光,镜头逐(zhu)渐(jian)拉(la)远,展现(xian)出四周都是(shi)楼梯的环境全(quan)貌(mao)。”

通义万相首尾帧生视频(pin)模型也可以满足用(yong)户对视频(pin)情感表达的诉(su)求。

▲提示词:“卡通风格,一个打(da)着红色雨(yu)伞(san)的蓝色卡通人物(wu)站(zhan)在(zai)雨(yu)中。它的眼神(shen)充满忧郁(yu)。”

此外,通(tong)义万(wan)相首(shou)尾帧生(sheng)(sheng)视频模型可以自主优化提(ti)术语指(zhi)令(ling),帮助创作者快速生(sheng)(sheng)成(cheng)(cheng)创意视频,降低使用门槛,使更(geng)多用户(hu)能够轻松生(sheng)(sheng)成(cheng)(cheng)高质量的视频内容(rong)。
二、通义万相2.1首尾帧生视频模型是如何训练的
Wan2.1系列模(mo)型(xing)均采用DiT(Diffusion in Transformer)架构(gou),将扩(kuo)散模(mo)型(xing)的生成能(neng)力与Transfomer模(mo)型(xing)的特征提取(qu)和长序(xu)列处理能(neng)力相(xiang)结合,并通过VAE视频压缩让视频生成过程(cheng)兼顾(gu)清晰(xi)度和工作(zuo)效率。
Wan2.1还借助Full Attension机制,使(shi)得生(sheng)成视(shi)频在(zai)时间(jian)和(he)空(kong)间(jian)上都具有很高的一致性(xing),不(bu)会出现时间(jian)上动作(zuo)跳跃、不(bu)连贯(guan),或者空(kong)间(jian)上物体异(yi)位、形(xing)态(tai)变化不(bu)合理等(deng)情(qing)况。

▲通义(yi)万相模型结构(gou)图
在(zai)Wan2.1系列模型的基(ji)础架构上,通义万相首尾帧生视频(pin)模型新增了条(tiao)件控制分支,以用(yong)户(hu)上传的首、尾帧照片作为控制条(tiao)件,实现(xian)了视频(pin)从首帧到尾帧丝滑(hua)准确的过渡效果。
此外,该模型还提取了首帧和(he)尾帧的(de)CLIP语义(yi)特(te)征(zheng),并将处理结果反馈到DiT的(de)生成(cheng)过(guo)程中,保(bao)证模型生成(cheng)首尾帧衔接画面时的(de)稳定性。

▲通义万相(xiang)首尾帧生视频模(mo)型架(jia)构(gou)图
在训练和推理阶段,通义(yi)万相首尾帧生视频模型采用(yong)了(le)线性噪声(sheng)轨迹的流匹(pi)配(Flow Matching)方(fang)法,用(yong)于(yu)处理噪声(sheng)和优(you)化视频生成(cheng)过程,使高(gao)精度的视频切(qie)片训练成(cheng)为可(ke)能。
为在有限内存下支持高(gao)清视频(pin)推理,通义万相首尾(wei)帧(zhen)生(sheng)视频(pin)模型使(shi)用了(le)模型切分策略和(he)序列并行策略。通过多种优化在保证推理效果无损的同时,大(da)幅(fu)缩(suo)短了(le)推理时间。
通义万相首尾(wei)帧生视频(pin)模(mo)型的训(xun)练过程总共经历了(le)三个阶(jie)段,从480p分辨率(lv)下的混合任务训(xun)练,到针对首尾(wei)帧生成能力的专(zhuan)项优化(hua),最后在720p分辨率(lv)下完成高精度训(xun)练。
结语:首尾帧生视频模型为使用者提供更多创作自由度
相较于文(wen)生视频(pin)和单图生视频(pin),首尾(wei)帧生视频(pin)具(ju)有更强的(de)可控性,用(yong)户可以自主决定开头和结尾(wei)画(hua)面,并通过(guo)提示(shi)词(ci)指(zhi)令对生成(cheng)内容进行描述。
但这无疑提高了训练首(shou)尾帧(zhen)生视(shi)频模(mo)型(xing)的(de)难度(du),既要实现画面从首(shou)帧(zhen)到尾帧(zhen)的(de)流畅衔接,又要满足视(shi)频本身(shen)的(de)质感(gan)和自然表现。
通义(yi)万相首(shou)尾(wei)帧生视(shi)频模型不仅可以实现对图像细节(jie)的(de)高(gao)精度处理(li),还(hai)能生成和谐自然的(de)动作(zuo)视(shi)频,展现出了强大的(de)技术优(you)势和创新性,开源后将为图生视(shi)频领域带来更(geng)多价值。