智东西(公众号:zhidxcom
作者 | 香草
编辑 | 李水青

智东西3月6日报道,昨天下(xia)午,明星创企Stability AI发布Stable Diffusion 3(SD3)论文,首度披露其(qi)最强文生图(tu)大模(mo)型背后的技术细节,并放出更多新鲜的生成示例。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲Stable Diffusion 3模(mo)型(xing)技术(shu)原理论文

与OpenAI近期爆火的文生视频模型Sora一样,SD3采用了扩散Transformer架构DiT,并在其基础上进行改进。新架构名为MMDiT,其主要(yao)突破点在于(yu)对文字、图像(xiang)两(liang)种模(mo)态(tai)的数据使用(yong)了(le)两(liang)组独(du)立(li)的权重,并通过注(zhu)意力(li)机(ji)制进行连接(jie),这使得信息(xi)可(ke)以(yi)在文本和图像(xiang)之间流(liu)动(dong),大大提(ti)升(sheng)了(le)模(mo)型的语(yu)义理解和文字渲染(ran)能力(li)。

在SD3放出的示(shi)(shi)例图中,包含文(wen)字(zi)渲染部分的图像(xiang)占了(le)很大(da)比例。下(xia)图的提示(shi)(shi)词分别(bie)为:漂(piao)亮的像(xiang)素(su)艺(yi)术,画面是一(yi)个(ge)魔法师和悬浮(fu)文(wen)字(zi)“Achievement unlocked: Diffusion models can spell now”(成就已解锁:扩散模(mo)型可以拼写了(le));青蛙坐在20世纪50年代(dai)的一(yi)家餐馆里,穿着皮夹克,头戴礼帽(mao),桌上(shang)有一(yi)个(ge)巨(ju)大(da)的汉堡和一(yi)个(ge)写着“froggy fridays”(青蛙星期五)的小牌子。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲SD3生(sheng)成(cheng)图(tu)像示(shi)例

目前,SD3还未(wei)开(kai)放访问(wen)权(quan)限,但Stability AI承诺未(wei)来将公开(kai)实验数据、代码和模型权(quan)重。不(bu)得不(bu)说,Stability AI真(zhen)的(de)是将开(kai)源(yuan)贯彻到底(di),可谓(wei)是真(zhen)正意义上的(de)“Open”AI。

体验申请地址:

//stability.ai/stablediffusion3

论文地址:

//stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

一、文字渲染完胜Midjourney,语义理解平均胜率超六成

Stability AI从视觉效果语义理解文字渲染三个方面将SD3的(de)性能与(yu)主流(liu)文(wen)生图模(mo)型进行比较,包(bao)括闭源模(mo)型DALL-E 3、Midjourney V6以(yi)及(ji)自(zi)家的(de)开(kai)源模(mo)型SDXL、SDXL Turbo、Stable Cascade等(deng)。其中(zhong)(zhong)根据(ju)目前披(pi)露(lu)的(de)示(shi)例来看,SD3的(de)文(wen)字渲染仅支持英文(wen),暂(zan)不(bu)支持中(zhong)(zhong)文(wen)等(deng)其他语言。

根据人类反馈结果,SD3最大参数规模的8B模型在视觉效果上,几乎胜过所有市面上的模型,语义理解能力平均(jun)胜率超60%,文字渲染能力则“遥遥领先”,在与Midjourney V6等6款模型的比较上胜率超80%,对DALL-E 3的胜率也接近70%

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲SD3-8B模型(xing)与主流文(wen)生(sheng)图模型(xing)相(xiang)比的胜率(lv)

当然(ran),人类评估带有一定的(de)主观色彩和偶然(ran)性。论文(wen)中(zhong),Stability AI还放出了测评基准的(de)比(bi)较结果。

在用于评估文本到图(tu)像对齐的测评基准GenEval上,深(shen)度参数为38、经过DPO(直(zhi)接偏好优化)的SD3模型取得多(duo)个任务(wu)上的最佳成绩(ji)。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲SD3在GenEval基准上与其他主流模型的(de)对(dui)比

Stability AI在论(lun)文(wen)中(zhong)放出了更多新鲜的文(wen)生(sheng)图(tu)示例,让我们一起来感受一下“最(zui)强文(wen)生(sheng)图(tu)大模型(xing)”有多强吧。

1、文字渲染能力:精准拼写英文单词,自动适配画面背景

提示词1:一幅由流动的(de)色(se)彩和风格组(zu)成的(de)美(mei)丽画(hua)作,上(shang)面写着“The SD3 research paper is here!”(SD3研究论文来了!),背景是斑斑点点的(de)水滴和飞溅的(de)颜料。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词2:一只穿着(zhe)西(xi)装(zhuang)、戴着(zhe)帽子(zi)的熊站在森林中的一条河里,举着(zhe)“I can’t bear it”(我无法忍受(shou))的牌子(zi)。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词3:一(yi)只面带微笑(xiao)的卡通狗(gou)坐在桌旁,手端咖啡杯,房间里(li)火光(guang)冲天。这(zhei)只狗(gou)向自己(ji)保(bao)证(zheng):“This is fine.”(不会有事(shi)的。)

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词4:一(yi)副美丽的油画(hua),画(hua)面是午后的河(he)(he)中(zhong)有一(yi)艘(sou)蒸汽船。在河(he)(he)的一(yi)侧是一(yi)座大(da)型的砖砌建筑,顶部有一(yi)个标志(zhi),上(shang)面写(xie)着“SD3”。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

2、语义理解能力:完美呈现细节描述,想象力Max

提示词5:半透明的猪,里面是(shi)一头(tou)更小(xiao)的猪。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词6:一只(zhi)奶酪做的螃(pang)蟹(xie)在餐(can)盘上。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词7:一(yi)个穿着运动鞋的(de)长腿可爱大眼拟人化芝(zhi)士(shi)汉堡,在装饰(shi)简朴(po)的(de)客厅(ting)沙发上休(xiu)息(xi)的(de)电影剧照。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词8:一只袋鼠拿着(zhe)啤酒,戴着(zhe)滑雪镜,热情地唱着(zhe)愚(yu)蠢的(de)歌。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

3、视觉美学能力:驾驭不同画风,色彩明亮鲜艳

提示词9:这幅细致的(de)笔墨(mo)画描绘了一艘巨大复杂的(de)外(wai)星太空船,位于荒郊(jiao)野外(wai)的(de)一个农场上空。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词10:分形主题餐厅柜台后的拟人(ren)分形人(ren)。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词11:黑暗的(de)(de)高对比(bi)度效果图,迷幻的(de)(de)生命之树照(zhao)亮了神(shen)秘洞穴中的(de)(de)尘埃。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

提示词12:倾斜(xie)移位航(hang)拍(pai),傍晚(wan)木桌上由寿(shou)司组(zu)成的可(ke)爱城市。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

二、基于Sora同款架构DiT,文本、图像采用两组独立权重

那么,如此强大的文字理解、渲染和视(shi)觉(jue)效(xiao)果,SD3是怎么做到的?

作者提出一种新架构MMDiT(Multimodal Diffusion Transformer),它建立在DiT的(de)基础(chu)上——没错,就(jiu)是(shi)Sora采用的(de)那个(ge)DiT模型(xing)。其(qi)中,“MM”指(zhi)的(de)是(shi)它处理多模态(tai)信(xin)息(xi)的(de)能力(li)。

下图(tu)是MMDiT的(de)整体(ti)架构示意图(tu)。与之前版本(ben)的(de)SD模型一(yi)样,SD3使用预训练模型来推导合适(shi)的(de)文本(ben)、图(tu)像提示。

不同之处在于,MMDiT对文本和图像两种模态使用了两组独立的权重,并在图像和文本标记之间实现双向信息流,从而提高了文本理解和拼写能力。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲MMDiT架构示意(yi)图

具(ju)体来(lai)(lai)说,SD3使用预训(xun)练的自编(bian)码(ma)器,将RGB图像映射(she)到(dao)一个(ge)低维的潜(qian)在空间;在文(wen)本(ben)(ben)编(bian)码(ma)上(shang),采(cai)用三种不(bu)同的文(wen)本(ben)(ben)嵌入(ru)器来(lai)(lai)编(bian)码(ma)文(wen)本(ben)(ben)表示,包括两个(ge)CLIP模(mo)型和(he)T5。

随后(hou),SD3通过添加位置编码,将(jiang)图像的(de)(de)潜在(zai)像素表示的(de)(de)2*2补(bu)丁(Patch)扁平化为补(bu)丁编码序(xu)列(lie)(lie),构(gou)造了一个由文本嵌入(ru)和(he)图像输入(ru)组成的(de)(de)序(xu)列(lie)(lie)。

在将(jiang)该补丁编(bian)(bian)码和(he)文本编(bian)(bian)码嵌(qian)入到一个共同维度(du)后(hou),SD3将(jiang)这两个序列(lie)连接起(qi)来,按照DiT的方(fang)法(fa)应用调制注意力和(he)MLP(多(duo)层(ceng)感知机)序列(lie)。

如下图(tu)(b)所(suo)示,SD3为每(mei)种模态设(she)置(zhi)了独(du)立的(de)Transformer,但在注意力(li)操作时,将(jiang)两(liang)种模态的(de)序列结(jie)合在一(yi)起。这(zhei)样(yang)一(yi)来,两(liang)种表征都能在各(ge)自(zi)的(de)空(kong)间(jian)内工(gong)作,同时也将(jiang)另一(yi)种空(kong)间(jian)考虑在内。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲MMDiT模型完整架构

SD3采(cai)用的(de)(de)是整流(Rectified Flow,RF)公(gong)式(shi),它(ta)的(de)(de)前向过程更简单,采(cai)样(yang)速度更快。为了(le)证明改进(jin)的(de)(de)RF方法(fa)的(de)(de)优越性,作者(zhe)在(zai)2个数(shu)据集上训练了(le)61种不同的(de)(de)公(gong)式(shi),包括各(ge)种扩散目(mu)标、损失函数(shu)以及(ji)不同的(de)(de)时间步采(cai)样(yang)。

数据方面,作者使(shi)用开源模型(xing)CogVLM生(sheng)成了(le)合成标记(ji)(ji)(ji),最终的(de)数据集中有50%原始标记(ji)(ji)(ji)和50%合成标记(ji)(ji)(ji),这些更加具(ju)有描述性的(de)合成标记(ji)(ji)(ji)极大地提升了(le)模型(xing)的(de)性能(neng)。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲使(shi)用合成数(shu)据对模型训练的提升(sheng)

模型训练方面,Stability AI称早期未优化的推理测试是在消费级硬件上进行的,其最大的80亿参数SD3模型适用于24GB显存的英伟达RTX 4090,使用50个采样步长生成分辨率为1024*1024的图像耗时34秒。此外,SD3将发布多种规(gui)模(mo)的版本(ben),从8亿到80亿参数不等,以(yi)进一步(bu)消除硬(ying)件障碍。

三、生成式AI成果连发,图像视频音频3D语言全面布局

就在同一天,Stability AI还与3D重建平台Tripo AI合作推出了TripoSR,可在一秒内(nei)从单(dan)张图像生成高质量的3D模型(xing)。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲TripoSR输(shu)入(ru)输(shu)出示例

据(ju)介绍,TripoSR支持(chi)较低的推理预算,即使没有GPU也(ye)能(neng)运行。该模型基(ji)于Adobe的三维重(zhong)建模型LRM构(gou)建,主要针对娱(yu)乐、游戏(xi)、工(gong)业(ye)设计等(deng)行业(ye)需求。

在(zai)英伟达A100上进行测试(shi)时(shi),TripoSR能在(zai)0.5秒(miao)生成草稿质量的三维纹(wen)理网(wang)格,优于(yu)OpenLRM等其他开源图生3D模型。

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

▲TripoSR与OpenLRM等(deng)三维重建(jian)模型的比较

开源地址:

//github.com/VAST-AI-Research/TripoSR

密集的产品或模型发布并不是心血来潮,而是这家生成式AI独角兽的常态。仅仅2024年以来,它便在短短两个多月内连发5款新(xin)模(mo)(mo)型。除了昨天的SD3和TripoSR,还(hai)有(you)文(wen)生(sheng)图模(mo)(mo)型Stable Cascade、语(yu)音模(mo)(mo)型Stable LM 2 1.6B、代码模(mo)(mo)型Stable Code 3B。

成(cheng)立5年来,Stability AI在图(tu)像、视频(pin)、音(yin)频(pin)、3D和语言五个(ge)领域全(quan)方(fang)位(wei)布局生成(cheng)式AI,形成(cheng)了强(qiang)大的“Stable家(jia)族”。最重(zhong)要的是,它一直秉持着自(zi)己开源开放的原则,几(ji)乎所有模型都支持下(xia)载(zai)并发布了技术论文。据其(qi)官网数(shu)据,Stability AI在托(tuo)管平台Discord已拥有27万(wan)用户(hu),基于其(qi)API(应用程序接口)生成(cheng)的图(tu)像超过4亿张(zhang)。

但同(tong)时,开源(yuan)也是(shi)一把(ba)双(shuang)刃剑(jian),尤其(qi)是(shi)对于一家(jia)技术是(shi)主要竞争力的大模(mo)型(xing)公(gong)司而言——更不用说模(mo)型(xing)训练有多“烧钱”了。

2023年11月,Stability AI被曝由于财务(wu)状(zhuang)况压力巨大(da)正(zheng)在寻求出售。几乎同时(shi),Stability AI宣布将(jiang)推出会员(yuan)模(mo)式(shi),其CEO在社交平台X上提到“最近几周(zhou)的(de)情(qing)况表明,商业(ye)模(mo)式(shi)的(de)一致性在AI中(zhong)非(fei)常(chang)重要”。12月,Stability AI正(zheng)式(shi)推出三种(zhong)等级的(de)会员(yuan)制度,其中(zhong)专业(ye)级月费20美元(yuan),可商用全(quan)套核(he)心模(mo)型(xing)。

结语:文生图开源社区再添一员巨将

Stability AI最近颇(po)有种“AI界汪(wang)峰”的感觉。

先是2月22日,推出超强(qiang)新(xin)版本文生(sheng)图模型(xing)Stable Diffusion 3,却被谷歌的开(kai)源大模型(xing)Gemma抢了(le)(le)风头。又(you)在昨天,开(kai)源图生(sheng)3D新(xin)模型(xing)TripoSR,结果撞(zhuang)上OpenAI最强(qiang)竞争对手Anthropic发布Claude 3,见(jian)证了(le)(le)GPT-4时代的“终结”。或许是咽不下(xia)这口气,Stability AI在同一天又(you)发布了(le)(le)这篇SD3论文,不仅披(pi)露了(le)(le)背(bei)后的MMDiT详细架构,还承诺SD3将全(quan)面开(kai)源。

在(zai)生成式AI的浪潮中,Stability AI坚持为(wei)开源(yuan)(yuan)社区添砖加瓦,为(wei)研(yan)究人员(yuan)和开发者提供了宝贵的资(zi)源(yuan)(yuan)。在(zai)技术论文(wen)中,我们(men)不仅(jin)看(kan)到(dao)了该(gai)模型的强大能(neng)力,也看(kan)到(dao)了Stability AI对其(qi)开源(yuan)(yuan)精神的信(xin)守(shou)承诺。

虽然Stability AI公(gong)司(si)内部管理(li)、CEO的处事风(feng)格等一直存(cun)在争(zheng)议,还(hai)被福布斯预告今年(nian)将会倒闭(bi),但随着其一次次推动(dong)技(ji)术的边界,也向我们证(zheng)明了(le)在科技(ji)领域(yu),技(ji)术才是最重要的“护(hu)城河”。

在SD3的预告中(zhong),Stability AI还暗(an)示其(qi)可(ke)能会具备视频(pin)生成能力(li)。未来我们期(qi)待看到SD3等开源模(mo)型迸发出更(geng)多潜力(li),造福更(geng)多用户和开发者。