智东西(公众号:zhidxcom)
作者 | GenAICon 2024
2024中国生成式AI大会于4月18-19日在(zai)北京举行,在(zai)大会第二天(tian)的(de)主会场AI Infra专场上,新加(jia)坡国立大学校长青年教授、潞晨(chen)科(ke)技创始人兼董事(shi)长尤(you)洋(yang)以(yi)《技术共(gong)享(xiang):类Sora开源(yuan)架构模(mo)型与训练细节(jie)》为题发表演(yan)讲(jiang)。
潞晨科技在今年3月开源的全球首个类Sora视频生成模型Open-Sora,是迄今GitHub上获得星标数最高的开源视频大模型项目之一,截至发稿前已有1.6万个星标,用户(hu)群(qun)体遍及全球(qiu)。
值得一提的是,这个模型在低成本下训练而成,相比Sora耗费数千张H100 GPU、花费数千万美元乃至数亿美元,Open-Sora的训练成本仅不到1万美元。
尤洋认为,视频生成正处于“GPT-2时刻”,还没有出现成熟的应用。对于视频生成模型来说,数据可能是最核心的资产。他还谈到,模型开源是有意义且重要的。正如Meta最(zui)新发布的Llama 3,极大(da)(da)地调(diao)动了(le)开源社(she)区的积极性,不但造(zao)福(fu)大(da)(da)量开发者(zhe),更有助于(yu)开源社(she)区整体的繁荣。
因此,Open-Sora模型也进行了全面的训练流程开源,开源了包括模型架构、模型权重、训练细节、数据处理在内的多(duo)项技(ji)术细节,让更多(duo)的开发(fa)者可以尝试Open-Sora模型,共同迭代与升(sheng)级(ji)。
在演讲期间,他详细解读了成功复现类Sora视频生成模型的四个关键要素,并分享了Open-Sora的(de)底层(ceng)架构(gou)、demo和教(jiao)程。
在他看来,考虑到成本压力,视频生成模型将分为大规模图像预训练、大规模视频预训练、高质量视频数据微调三个阶段。在模型设计上,时空分割处理将是显著降低视频生成模型计算成本和内存压力的关键一步。他还提到,Open-Sora未来的发展方向主要在于完善数据处理流程以及训练视频压缩Encoder。
以下为尤洋的演讲实录:
我演讲的(de)主题是最(zui)近做的(de)Open-Sora,希望帮助更多中(zhong)小企业以及研(yan)究(jiu)人员去快速(su)地复现类似Sora这(zhei)样的(de)视频(pin)生成(cheng)模型。
首(shou)先简要(yao)介绍一下我的(de)技(ji)(ji)术背(bei)景(jing)。这(zhei)张照片拍摄自(zi)我博士毕业答辩时(shi),图中(zhong)的(de)人(ren)物(wu)包(bao)括我在加(jia)州大学伯克(ke)利分(fen)校的(de)几位教授,他们的(de)专业背(bei)景(jing)主要(yao)集(ji)中(zhong)在高性能(neng)计算(HPC)和计算机视觉(CV)领域。HPC的(de)目标是(shi)提(ti)高模型(xing)训(xun)(xun)练(lian)的(de)效率,即(ji)用成(cheng)百(bai)上千的(de)处理器卡来(lai)加(jia)快训(xun)(xun)练(lian)速度。CV则是(shi)视频(pin)生成(cheng)模型(xing)的(de)关键技(ji)(ji)术之一,这(zhei)与我的(de)个(ge)人(ren)技(ji)(ji)术背(bei)景(jing)非常相似。
目前,我们了解到大模型对计算能力的需求非常高,特别是在今天的Infra专场中,我们可以预见,未来对算力要求最高的模型可能会是视频生成模型。
今天我的分享旨在抛砖引玉,我认为视频生成模型目前还处于一个相对早期的发展阶段,其情形有点类似于视频领域的GPT-2时期。市场上尚未出现一(yi)个完全(quan)成(cheng)熟且广泛可用(yong)的(de)视频生成(cheng)应用(yong)。因此,我将分享我们在(zai)这一(yi)领域(yu)的(de)一(yi)些初(chu)步探索成(cheng)果,并希(xi)望这能激发(fa)大家的(de)兴趣,进而深入探讨。
本次演讲将分为几个部分。首先,我会简单介绍Open-Sora模型,以及与之相关的OpenAI Sora。需要明确的是,尽管我们称之为Open-Sora,也确实采用了类似于OpenAI技术报告中类似的技术,但它实际上是一个不同的模型。然后我将介绍Open-Sora的(de)技术要点、性能表现,以(yi)及我们对未来(lai)发展的(de)规划。
一、未来人人都能成为导演,视频生成有颠覆教育和技术传播的潜力
大家都(dou)看过Sora的(de)Demo视频,其效果(guo)确实令人(ren)震撼。未来,我们(men)可能会进入(ru)一(yi)个(ge)每个(ge)人(ren)都(dou)能成(cheng)为导演(yan)的(de)时代,每个(ge)人(ren)都(dou)能够迅(xun)速生成(cheng)自(zi)己想要的(de)视频或(huo)故事,并(bing)且通过视频这种形式进行学习(xi),这很(hen)可能比传统的(de)文字学习(xi)效率要高得(de)多。
如(ru)果我(wo)们需要了解某个问题,能(neng)否(fou)让AI为(wei)我(wo)们生成一段视频,以便快速掌(zhang)握相(xiang)关知(zhi)识呢?我(wo)认为(wei)视频生成技术有潜力颠(dian)覆教育和(he)技术传播领域。
在Sora模型之前(qian),市(shi)场(chang)(chang)上(shang)已经存在一些视(shi)频(pin)生成工具(ju),例如Pika、RunwayML、Stable Video等。然而,Sora在视(shi)频(pin)长度上(shang)实现了(le)(le)显(xian)著的突破,超越了(le)(le)之前(qian)所有顶尖(jian)产品,因此(ci)其效果还是非(fei)常(chang)惊艳的。Sora的应用前(qian)景非(fei)常(chang)可观,可以涵盖游戏、艺术(shu)、媒(mei)体创作、药物研发、市(shi)场(chang)(chang)营销和教育等多个领(ling)域(yu)。甚至(zhi)在未来,许多物理模拟领(ling)域(yu)也可能(neng)采用视(shi)频(pin)生成模型。
尽管如此,视频生成技术目前尚未广泛普及。我(wo)(wo)们(men)希望能(neng)大幅(fu)降低制(zhi)作(zuo)电(dian)(dian)影或视频的(de)成(cheng)本。以今天的(de)标准,制(zhi)作(zuo)一部优秀的(de)电(dian)(dian)影可能(neng)需(xu)要高达五(wu)千万美元(yuan)的(de)投资,这显(xian)然(ran)限(xian)制(zhi)了普(pu)通人参与的(de)可能(neng)性。但如果未来有(you)了先进的(de)视频生(sheng)成(cheng)模(mo)型,我(wo)(wo)们(men)只需(xu)向AI描述我(wo)(wo)们(men)的(de)想(xiang)法(fa),它就能(neng)为我(wo)(wo)们(men)生(sheng)成(cheng)一部高质量(liang)的(de)动画片或电(dian)(dian)影。
只有(you)达到这样的(de)(de)水平,视频生成(cheng)模型的(de)(de)真正(zheng)价值(zhi)才能得到最(zui)大化的(de)(de)体现。
二、介绍首个类Sora开源视频生成模型,成功复现Sora有四个关键要素
在介绍了Sora及其影响力后(hou),第二部分介绍一下(xia)Open-Sora。
Open-Sora是(shi)(shi)一(yi)(yi)个开源的视频生成模(mo)型项目(mu),我们的目(mu)标是(shi)(shi)将模(mo)型的重要部分都公之于众(zhong),以便社区能进一(yi)(yi)步(bu)发展这一(yi)(yi)技术(shu)。
要成功复现视频生(sheng)成模(mo)型,主要包(bao)括(kuo)几个(ge)部(bu)分(fen)。
首先,需要了解模型的架构,比如我到底用的(de)是Diffusion、Llama、GPT还是BERT,不同的(de)架构(gou)决(jue)定我模型(xing)基本(ben)的(de)骨架。
其次,一旦模型训练完成,分享训练得到的权重也(ye)是非常重要的。这意(yi)味(wei)着(zhe)其他人可(ke)以直接拿来用,而(er)不需要从头开(kai)始训(xun)(xun)练模型。例(li)如Meta刚(gang)刚(gang)开(kai)放(fang)了Llama 3,尽管4000亿参数版本还没有完全训(xun)(xun)练完成,但已经可(ke)以从中看到很好的效果。通过分(fen)享这些权重,社区可(ke)以快速(su)地将模型部署到各种应用中。
通(tong)过(guo)这(zhei)种开(kai)放的方式,我们希望(wang)能够(gou)(gou)促进(jin)视频(pin)生成技术的创新(xin)和(he)普(pu)及,让更多(duo)有(you)兴趣的研究者和(he)开(kai)发者能够(gou)(gou)参与进(jin)来,共同(tong)推(tui)动这(zhei)一(yi)领域(yu)的发展。
第三点非常关键,它涉及到开源模型的透明度和可控性。
虽然(ran)现有的(de)一些开(kai)源模型,如Llama 1和Llama 2,已(yi)经公(gong)开(kai)了模型参(can)数和使用方式,但(dan)它们(men)并没有公(gong)开(kai)训(xun)练过(guo)程的(de)具体(ti)细节,包(bao)括超(chao)参(can)数的(de)设置。这导致了我们(men)无法完全复现其预训(xun)练过(guo)程,也就(jiu)是(shi)说,模型的(de)预训(xun)练并不是(shi)百分百自主可(ke)控的(de)。
我们认为,如果未来的视频生成大模型能够实现百分之百的自主可控,那么将能更有效地激发和调动整个行业的生产力。
此外,数据处理也(ye)是决定模(mo)型(xing)性能的一(yi)个(ge)关(guan)键因素。
通过审视OpenAI的技术报告,我们可以发现,尽管在模型架构和算法方面,OpenAI并没有特别强调其创新性,沿用了如Video Diffusion等现有模型,但OpenAI在数据方面做得非常出色。高质量的数据是决定视频生成效果的直接因素,因此,数据处理方式和数据集的质量极为关键。
三、解读STDiT架构核心思想,将成本控制在1万美元
我将(jiang)展示一些我们的demo和教(jiao)程,这(zhei)将(jiang)涵盖开(kai)源模型的几个重要组成部分。
从技术角度来看,Open-Sora模型采用了STDiT架构。我们选择STDiT的主要原因是考虑到成本效益。我们的目标是将Open-Sora的成本控制在1万美金或者更少。
STDiT架构的核心思想在于它包含时间维度的Self Attention和空间维度的Self Attention,这两个方面是分开处理的,而不是合并计算,这样的设计可以显著降低模型的训练和推理成本。相比于DiT模型,STDiT在成本上有着显著的优势,而且在相同的硬件条件下,其吞吐量也更高,这对于提升模型效率来说是非常有利的。
在架构(gou)方(fang)面,我(wo)们的创新点并(bing)不是特别(bie)多(duo),核心思想(xiang)仍然与(yu)DiT的架构(gou)相(xiang)似(si)。具体来说,处(chu)理视(shi)频的流程(cheng)是这样的:首先,我(wo)们获取一个视(shi)频,然后通过Encoder将其压(ya)缩(suo)到Latent Space中(zhong)(zhong),这样视(shi)频就可以在这个空间中(zhong)(zhong)进行交互和处(chu)理。这种方(fang)法(fa)实际(ji)上与(yu)文(wen)本到图像生成的技术非(fei)常相(xiang)似(si)。
我们对文生图的概念并不陌生。我们首先对视频进行压缩,目的是为了将其转换到潜在空间中。压缩有两个主要目的:首先(xian),原(yuan)始视频(pin)文件可能(neng)非常(chang)大,直接处理它们成本(ben)太高;其次,我们的(de)(de)目标是生成特定的(de)(de)视频(pin)内(nei)容,比(bi)如(ru)(ru)一只(zhi)狗在(zai)雪地里追(zhui)雪球的(de)(de)场景。如(ru)(ru)果(guo)(guo)我们不(bu)进行压(ya)缩(suo),而是直接在(zai)原(yuan)始视频(pin)上操作,可能(neng)会生成不(bu)符合要求的(de)(de)内(nei)容,比(bi)如(ru)(ru)生成了一只(zhi)老(lao)虎(hu)或一只(zhi)猫(mao),即使(shi)视频(pin)质量再(zai)高,如(ru)(ru)果(guo)(guo)内(nei)容不(bu)是我们想要的(de)(de),那么这样(yang)的(de)(de)结果(guo)(guo)显然是不(bu)可接受的(de)(de)。
通过这种方式,我们可以更有效地控制视频生成的过程,确保生成的视频内容符合我们的预期和需求。这种方法不仅降低了处理成本,而且提高了生成视频的准确性和相关性。
在潜在空间中,我们需要融入人类的指令,这些指令通常通过自然语言处理来实现。然而,自然语言数据类型并不能直接与视频信息进行交互。因此,潜在空间的第二个关键作用是将自然语言也转换到这个空间中。这样潜在空(kong)间就包含(han)了视觉(jue)信息(xi)和文本信息(xi),使得这两(liang)类信息(xi)能(neng)够(gou)在该空(kong)间内进行交互。这是我们压缩(suo)视频并将其转换(huan)到潜在空(kong)间的两(liang)个(ge)主要目的。
完成(cheng)(cheng)这(zhei)一(yi)(yi)(yi)过程后(hou),我们(men)的工作流(liu)程与文本(ben)(ben)到(dao)(dao)图像生(sheng)(sheng)(sheng)成(cheng)(cheng)技术非常相似。文本(ben)(ben)到(dao)(dao)视频生(sheng)(sheng)(sheng)成(cheng)(cheng)本(ben)(ben)质上是文本(ben)(ben)到(dao)(dao)图像生(sheng)(sheng)(sheng)成(cheng)(cheng)的一(yi)(yi)(yi)种(zhong)(zhong)扩展(zhan),因(yin)为(wei)(wei)视频可以被视为(wei)(wei)一(yi)(yi)(yi)系列图片(pian)的集合(he)。在这(zhei)种(zhong)(zhong)情况下,我们(men)仍然需(xu)要借鉴许多(duo)文本(ben)(ben)到(dao)(dao)图像生(sheng)(sheng)(sheng)成(cheng)(cheng)的技术。
具体到实现方式,与扩散模型的做法非常相似,我们通过引入高斯噪声来生成所需(xu)的(de)视(shi)频(pin)(pin)。首(shou)先(xian),在(zai)潜在(zai)空(kong)间(jian)中随机采样(yang)一个高斯噪声,然(ran)后将这个噪声与人类的(de)指令一起(qi)输入模型,模型据此(ci)生成视(shi)频(pin)(pin)。最后,我们(men)将生成的(de)视(shi)频(pin)(pin)从潜在(zai)空(kong)间(jian)解码回原始的(de)三维空(kong)间(jian),完成整个生成过程。
四、视频生成模型三阶段:图像预训练,视频预训练,高质量视频数据微调
至于如何实现这一技术,考虑到成本的压力,我们可以将其分为三个阶段进行。
尽管今天介绍的技术在未(wei)来十年或二(er)十年可(ke)(ke)(ke)能会被新的技术所取代,但在当前算力有限的情况(kuang)下,我们可(ke)(ke)(ke)能需要采取分阶段的方法(fa)来训练高质量的视(shi)频模(mo)型(xing)。直接(jie)使用(yong)高质量视(shi)频数(shu)据训练视(shi)频模(mo)型(xing)的成本(ben)可(ke)(ke)(ke)能高达数(shu)千万(wan)甚至(zhi)数(shu)亿(yi)美(mei)元,这显然限制了大多数(shu)人参(can)与的可(ke)(ke)(ke)能性。
在成本受限的(de)(de)现实条件下,我(wo)们的(de)(de)策略是(shi),首先找到(dao)一个(ge)不错(cuo)的(de)(de)文本到(dao)图(tu)像生成模型,这类模型目前比较(jiao)容易(yi)获(huo)取,市场上(shang)也(ye)有很多选择(ze),当然我(wo)们也(ye)可以自己(ji)训练一个(ge)。
第二(er)阶段,有了文生图(tu)模型,再给(ji)它(ta)大(da)量视(shi)(shi)频做初始训练,让(rang)它(ta)对(dui)视(shi)(shi)频世(shi)界有很好(hao)的理解。
第(di)三(san)阶(jie)段,用高(gao)质量(liang)、精挑的(de)(de)视(shi)频(pin)提升它(ta)(ta)的(de)(de)视(shi)频(pin)质量(liang)。这(zhei)种思想在大模型领域已经用了七八(ba)年,早在2018年、我们训练BERT的(de)(de)时(shi)候,BERT训练也(ye)是(shi)分(fen)两个阶(jie)段,第(di)一阶(jie)段sequence是(shi)128,第(di)二阶(jie)段的(de)(de)sequence是(shi)512。短(duan)序列(lie)上让它(ta)(ta)对自然(ran)语言有基(ji)本的(de)(de)理解,再在长序列(lie)上微调,给它(ta)(ta)一个更好的(de)(de)生成效果(guo),这(zhei)些其实都是(shi)出于成本的(de)(de)压力才这(zhei)样操作的(de)(de)。
理论(lun)上(shang)(shang)我们(men)有无(wu)限(xian)算力(li)的(de)(de)话,我们(men)应该直接(jie)拿(na)最好的(de)(de)数(shu)据让(rang)它(ta)去训(xun)练。包括Llama、GPT,它(ta)们(men)训(xun)练时也都参考了类似的(de)(de)思路(lu),先在短序列(lie)上(shang)(shang)大(da)规(gui)模训(xun)练,之(zhi)后(hou)再在长序列(lie)或者更好的(de)(de)数(shu)据上(shang)(shang)去做微调,提升最终的(de)(de)模型生成(cheng)质量(liang)。
具体而言,我们可以看一下三个阶段究竟是怎么操作的。
第一个阶段还比较简单,现在有很多文生(sheng)图(tu)的(de)(de)(de)模(mo)型,即便不自(zi)己训练,也可能找(zhao)一些不错的(de)(de)(de)文生(sheng)图(tu)模(mo)型,它其(qi)实(shi)就(jiu)是我的(de)(de)(de)基(ji)准,我从起点开始去构造我的(de)(de)(de)整个方案。我们改造Stable Diffusion,可以快速(su)把(ba)这件事完成。
第二阶(jie)段(duan),现(xian)在有(you)了(le)基本(ben)对三维(wei)世界(jie)的理解,文(wen)生(sheng)图(tu)本(ben)质(zhi)上还是(shi)对自(zi)然语言(yan)指令信息转(zhuan)到三维(wei)世界(jie),有(you)一(yi)个基本(ben)的能(neng)力之后(hou),现(xian)在我(wo)希望它每秒(miao)钟(zhong)能(neng)生(sheng)成很多图(tu),每秒(miao)钟(zhong)生(sheng)成60张图(tu)就是(shi)一(yi)个视频了(le)。这种情况下,再进一(yi)步给它很多视频数据让它训练。
我(wo)(wo)们的创新点有(you)(you)两(liang)部分,用(yong)了(le)STDiT,有(you)(you)时间(jian)(jian)信(xin)息(xi)和(he)(he)空间(jian)(jian)信(xin)息(xi),我(wo)(wo)们新加了(le)时间(jian)(jian)上(shang)的Attention模块,因为本身已(yi)经有(you)(you)空间(jian)(jian)上(shang)的Attention模块。比如空间(jian)(jian)上(shang)就(jiu)是S,时间(jian)(jian)上(shang)就(jiu)是T,现在有(you)(you)一(yi)(yi)个S和(he)(he)T,S是已(yi)经训得差不(bu)多了(le),T刚(gang)(gang)刚(gang)(gang)开始。S相当(dang)(dang)于是一(yi)(yi)个初中(zhong)生,T相当(dang)(dang)于是一(yi)(yi)个婴(ying)儿,但现在我(wo)(wo)们希望(wang)S和(he)(he)T都能达到大(da)学生的水(shui)平。
有时我们会采用一种混合训练的方(fang)法(fa),即将(jiang)(jiang)成熟度(du)不(bu)同的模型(xing)一起(qi)训(xun)(xun)练(lian)。这种(zhong)方(fang)法(fa)听起(qi)来可(ke)能(neng)(neng)有些冒险,因为S可(ke)能(neng)(neng)已经相当于一个(ge)初中生,而T可(ke)能(neng)(neng)还只是一个(ge)刚(gang)刚(gang)起(qi)步的婴(ying)儿。如果将(jiang)(jiang)它们放在一起(qi)训(xun)(xun)练(lian),可(ke)能(neng)(neng)会担(dan)心它们无(wu)法(fa)跟上对方(fang)学习(xi)的节(jie)奏。
然而,现代的大型模型拥有庞大的参数量,这使得它们能够通过适当的调整迅速自适应不同的学习速度。在这种情况下,尽管S模型最初学习速度较慢,但T模型可以快速增长,最终两者都能迅速达到相同的水平,最终都能达到相当于大学生的能力水平。
即使我们没有(you)自己的(de)S模型(xing),也可以利用一些现有(you)的(de)资源。当(dang)(dang)我们引入T模型(xing)后,通过适当(dang)(dang)的(de)整合和调整,可以显(xian)著(zhu)提(ti)升整体系统的(de)性能。
这种策略体现了深度学习模型训练的灵活性和适应性,通过合理的设计和调整,即使是成熟度不同的模型也能够协同工作,最终实现性能的共同提升。
当(dang)我们拥有了(le)视(shi)(shi)频生成模(mo)型(xing)之(zhi)后,接下(xia)来的第三部分工作是(shi)使用更高质量的视(shi)(shi)频数据对模(mo)型(xing)进(jin)行(xing)精调。
这里的(de)核心区别在于,第(di)三(san)(san)部分生(sheng)(sheng)成的(de)视频在质量上将显著优于第(di)二(er)部分。尽管第(di)二(er)部分的(de)模型已经对三(san)(san)维视觉世界(jie)有(you)了一定的(de)理解,但其生(sheng)(sheng)成的(de)视频质量仍有(you)提升空间,这也正是我们进行第(di)三(san)(san)阶段工作的(de)原因。
在这一过程中,还有一个关键点值得注意,即我们在OpenAI的技术报告中发现,他们使用了多模态版本的GPT-4来进行视频描述,但这种方法的成本较高。为了降低成本,我们转而采用了开源的LLaVA 1.6模型(xing)来进行视频描(miao)述任务。LLaVA 1.6是基于E34B数据集训练的,如果大家对此感兴趣,可以(yi)进一步了(le)解和探索。
通过使用LLaVA 1.6,我们能够在保持描述质量的同时,减少计算资源的消耗。这种方法不(bu)仅有助于提升(sheng)最终视频(pin)产品的质量,也使得(de)整个视频(pin)生成过程更加(jia)高效和(he)经济,从而为更广泛的应用(yong)场(chang)景和(he)用(yong)户(hu)群体提供了可能(neng)性。
五、如何将成本降到最低?时空分割是关键一步
介绍完整体的模型、算法、设计流程之后,接下来考虑如何把成本降到最低。
要想把成本控制在1万美金左右,显然我们不能用太多的GPU,我们可以简单地做一笔数学计算。现在H800一台月租8万-10万人民币,假设有8台H800,每月的租金就要80万,如果用20台,每月的租金大概需要200万。要想一次性试验成本控制在10万以下,只能用8台H800 64个H800GPU,就需要把速度、效率破到最高。
之前我们打造了Colossal-AI系统,从三个角度,高效的内存优化、N维并行系统、低延迟推理,通过Colossal-AI进一步实现2-4倍的加速。
训练过程中,一个关键因素是它们需要处理的序列长度通常非常长。无(wu)论是国内还(hai)是美国的大模型,研究(jiu)者们(men)都(dou)在努力(li)扩展模型的序列(lie)长(zhang)度(du),以期获得更高的预测精度(du)。以GPT模型为例,其损失函数依赖于一个(ge)窗口的信息(xi)来预测下一个(ge)词的概率,窗口越大,即包含的信息(xi)越多,预测的准确性也就越高。
对于视(shi)(shi)频(pin)生(sheng)成模型(xing)而言,即(ji)便是较短的(de)视(shi)(shi)频(pin),其(qi)序列长度,这(zhei)里(li)指的(de)是帧(zhen)数,即(ji)每秒(miao)钟包含的(de)画面数量,也可能是巨大(da)的(de)。例如,即(ji)便是每秒(miao)24帧(zhen)的(de)视(shi)(shi)频(pin),如果帧(zhen)率提高(gao)到60,那么在(zai)数据训(xun)练中的(de)长度可能达到150万tokens,这(zhei)将导致计算和内存开销(xiao)急剧增加。
因此,将时间信息和空间信息进行分割处理是非常关键的一步。通过(guo)时(shi)空(kong)分(fen)割,我们可以(yi)显著降低(di)计算(suan)成本(ben)和(he)内存压(ya)力(li)。具体(ti)来说,这意味着(zhe)我们不(bu)是(shi)同时(shi)计算(suan)时(shi)间(jian)信息和(he)空(kong)间(jian)信息,而是(shi)分(fen)步骤进行(xing),先处理(li)时(shi)间(jian)维度(du),再处理(li)空(kong)间(jian)维度(du),这样可以(yi)大(da)幅提升(sheng)处理(li)效率。
通(tong)过这种方法,我们可以更(geng)高效地训练视频生(sheng)成模型(xing),同(tong)时控(kong)制计算资源的(de)消(xiao)耗,使得模型(xing)训练变得更(geng)加可行,即使是在资源有限的(de)情况(kuang)下。
经过我们的优化之后,训练策略提升了很大。从右图可以看出,即使在8个GPU上训练速度也提升了16%,尤其在Encoder部分,计算密集型(xing)任务也实(shi)现了显著(zhu)加(jia)速(su)。
六、低成本模型能生成20秒视频,Open-Sora已获得1.4万个GitHub星标
最(zui)后展示下我(wo)们的(de)demo。我(wo)们的(de)demo远差(cha)于OpenAI,主要有两个原因(yin):
首先,我们的demo是在低成本条件下(xia)完成(cheng)的(de),OpenAI使用(yong)了(le)2000到4000个(ge)H100 GPU,花(hua)费了(le)五千万(wan)美元到两(liang)亿美元,而我(wo)们(men)仅用(yong)了(le)不到1万(wan)美金进行试(shi)验。在如此(ci)有(you)限的(de)预算下(xia),我(wo)们(men)取得的(de)效果是(shi)可(ke)接受(shou)的(de)。
其次,我们没有使用大量的数据。通常数(shu)据质(zhi)量越(yue)高,生成(cheng)(cheng)的(de)视频(pin)质(zhi)量越(yue)好。如果我(wo)们(men)(men)采(cai)用更(geng)好的(de)数(shu)据集,我(wo)们(men)(men)目前的(de)内(nei)部版本(ben)能够生成(cheng)(cheng)大约20秒的(de)视频(pin)。这是一个在(zai)成(cheng)(cheng)本(ben)受限条件下的(de)演示版本(ben),感兴趣的(de)朋友(you)可(ke)以在(zai)我(wo)们(men)(men)GitHub页面(mian)上查看更(geng)多信息。
Open-Sora目前在视频大模型开源领域中是GitHub上获得星标数最高的项目之一。自从我们在3月3日开源以来,已经获得了1.6万个星标,用户群体遍布全球(qiu),包括(kuo)中国(guo)、美国(guo)、欧洲、印度和(he)东南亚。
我们的发展方向包括完善数据处理流程。我再次强调,对于视频生成模型来说,数据可能是最核心的资产。虽然算法大多是公开的,比如STDiT、DiT或Video Diffusion,大家使用的算法和模型结构相似,结果也不会有太大差异。但是,如果数据质量有显著差异,那么模型的质量也会有很大差别。因此(ci)数据处理(li)流程(cheng)非常关(guan)键(jian)。
此外,视频压缩和编码也非常重要,如何将视(shi)觉信(xin)息(xi)有效地转换到(dao)潜在(zai)空间,以及潜在(zai)空间是(shi)否能够准确表达视(shi)频(pin)内容的(de)所(suo)有信(xin)息(xi),这对(dui)于(yu)模型的(de)推理和学习过程(cheng)至(zhi)关重要。
以上是尤洋演讲内容的完整整理。