最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

智东西（公众号：zhidxcom）
作者 | 香草
编辑 | 李水青

智东西3月6日报道，昨天下(xia)午，明星创企Stability AI发布Stable Diffusion 3（SD3）论文，首度披露其(qi)最强文生图(tu)大模(mo)型背后的技术细节，并放出更多新鲜的生成示例。

▲Stable Diffusion 3模(mo)型(xing)技术(shu)原理论文

与OpenAI近期爆火的文生视频模型Sora一样，SD3采用了扩散Transformer架构DiT，并在其基础上进行改进。新架构名为MMDiT，其主要(yao)突破点在于(yu)对文字、图像(xiang)两(liang)种模(mo)态(tai)的数据使用(yong)了(le)两(liang)组独(du)立(li)的权重，并通过注(zhu)意力(li)机(ji)制进行连接(jie)，这使得信息(xi)可(ke)以(yi)在文本和图像(xiang)之间流(liu)动(dong)，大大提(ti)升(sheng)了(le)模(mo)型的语(yu)义理解和文字渲染(ran)能力(li)。

在SD3放出的示(shi)(shi)例图中，包含文(wen)字(zi)渲染部分的图像(xiang)占了(le)很大(da)比例。下(xia)图的提示(shi)(shi)词分别(bie)为：漂(piao)亮的像(xiang)素(su)艺(yi)术，画面是一(yi)个(ge)魔法师和悬浮(fu)文(wen)字(zi)“Achievement unlocked: Diffusion models can spell now”（成就已解锁：扩散模(mo)型可以拼写了(le)）；青蛙坐在20世纪50年代(dai)的一(yi)家餐馆里，穿着皮夹克，头戴礼帽(mao)，桌上(shang)有一(yi)个(ge)巨(ju)大(da)的汉堡和一(yi)个(ge)写着“froggy fridays”（青蛙星期五）的小牌子。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲SD3生(sheng)成(cheng)图(tu)像示(shi)例

目前，SD3还未(wei)开(kai)放访问(wen)权(quan)限，但Stability AI承诺未(wei)来将公开(kai)实验数据、代码和模型权(quan)重。不(bu)得不(bu)说，Stability AI真(zhen)的(de)是将开(kai)源(yuan)贯彻到底(di)，可谓(wei)是真(zhen)正意义上的(de)“Open”AI。

体验申请地址：

//stability.ai/stablediffusion3

论文地址：

//stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

一、文字渲染完胜Midjourney，语义理解平均胜率超六成

Stability AI从视觉效果、语义理解、文字渲染三个方面将SD3的(de)性能与(yu)主流(liu)文(wen)生图模(mo)型进行比较，包(bao)括闭源模(mo)型DALL-E 3、Midjourney V6以(yi)及(ji)自(zi)家的(de)开(kai)源模(mo)型SDXL、SDXL Turbo、Stable Cascade等(deng)。其中(zhong)(zhong)根据(ju)目前披(pi)露(lu)的(de)示(shi)例来看，SD3的(de)文(wen)字渲染仅支持英文(wen)，暂(zan)不(bu)支持中(zhong)(zhong)文(wen)等(deng)其他语言。

根据人类反馈结果，SD3最大参数规模的8B模型在视觉效果上，几乎胜过所有市面上的模型，语义理解能力平均(jun)胜率超60%，文字渲染能力则“遥遥领先”，在与Midjourney V6等6款模型的比较上胜率超80%，对DALL-E 3的胜率也接近70%。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲SD3-8B模型(xing)与主流文(wen)生(sheng)图模型(xing)相(xiang)比的胜率(lv)

当然(ran)，人类评估带有一定的(de)主观色彩和偶然(ran)性。论文(wen)中(zhong)，Stability AI还放出了测评基准的(de)比(bi)较结果。

在用于评估文本到图(tu)像对齐的测评基准GenEval上，深(shen)度参数为38、经过DPO（直(zhi)接偏好优化）的SD3模型取得多(duo)个任务(wu)上的最佳成绩(ji)。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲SD3在GenEval基准上与其他主流模型的(de)对(dui)比

Stability AI在论(lun)文(wen)中(zhong)放出了更多新鲜的文(wen)生(sheng)图(tu)示例，让我们一起来感受一下“最(zui)强文(wen)生(sheng)图(tu)大模型(xing)”有多强吧。

1、文字渲染能力：精准拼写英文单词，自动适配画面背景

提示词1：一幅由流动的(de)色(se)彩和风格组(zu)成的(de)美(mei)丽画(hua)作，上(shang)面写着“The SD3 research paper is here!”（SD3研究论文来了！），背景是斑斑点点的(de)水滴和飞溅的(de)颜料。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词2：一只穿着(zhe)西(xi)装(zhuang)、戴着(zhe)帽子(zi)的熊站在森林中的一条河里，举着(zhe)“I can’t bear it”（我无法忍受(shou)）的牌子(zi)。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词3：一(yi)只面带微笑(xiao)的卡通狗(gou)坐在桌旁，手端咖啡杯，房间里(li)火光(guang)冲天。这(zhei)只狗(gou)向自己(ji)保(bao)证(zheng)：“This is fine.”（不会有事(shi)的。）

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词4：一(yi)副美丽的油画(hua)，画(hua)面是午后的河(he)(he)中(zhong)有一(yi)艘(sou)蒸汽船。在河(he)(he)的一(yi)侧是一(yi)座大(da)型的砖砌建筑，顶部有一(yi)个标志(zhi)，上(shang)面写(xie)着“SD3”。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

2、语义理解能力：完美呈现细节描述，想象力Max

提示词5：半透明的猪，里面是(shi)一头(tou)更小(xiao)的猪。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词6：一只(zhi)奶酪做的螃(pang)蟹(xie)在餐(can)盘上。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词7：一(yi)个穿着运动鞋的(de)长腿可爱大眼拟人化芝(zhi)士(shi)汉堡，在装饰(shi)简朴(po)的(de)客厅(ting)沙发上休(xiu)息(xi)的(de)电影剧照。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词8：一只袋鼠拿着(zhe)啤酒，戴着(zhe)滑雪镜，热情地唱着(zhe)愚(yu)蠢的(de)歌。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

3、视觉美学能力：驾驭不同画风，色彩明亮鲜艳

提示词9：这幅细致的(de)笔墨(mo)画描绘了一艘巨大复杂的(de)外(wai)星太空船，位于荒郊(jiao)野外(wai)的(de)一个农场上空。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词10：分形主题餐厅柜台后的拟人(ren)分形人(ren)。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词11：黑暗的(de)(de)高对比(bi)度效果图，迷幻的(de)(de)生命之树照(zhao)亮了神(shen)秘洞穴中的(de)(de)尘埃。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

提示词12：倾斜(xie)移位航(hang)拍(pai)，傍晚(wan)木桌上由寿(shou)司组(zu)成的可(ke)爱城市。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

二、基于Sora同款架构DiT，文本、图像采用两组独立权重

那么，如此强大的文字理解、渲染和视(shi)觉(jue)效(xiao)果，SD3是怎么做到的？

作者提出一种新架构MMDiT（Multimodal Diffusion Transformer），它建立在DiT的(de)基础(chu)上——没错，就(jiu)是(shi)Sora采用的(de)那个(ge)DiT模型(xing)。其(qi)中，“MM”指(zhi)的(de)是(shi)它处理多模态(tai)信(xin)息(xi)的(de)能力(li)。

下图(tu)是MMDiT的(de)整体(ti)架构示意图(tu)。与之前版本(ben)的(de)SD模型一(yi)样，SD3使用预训练模型来推导合适(shi)的(de)文本(ben)、图(tu)像提示。

不同之处在于，MMDiT对文本和图像两种模态使用了两组独立的权重，并在图像和文本标记之间实现双向信息流，从而提高了文本理解和拼写能力。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲MMDiT架构示意(yi)图

具(ju)体来(lai)(lai)说，SD3使用预训(xun)练的自编(bian)码(ma)器，将RGB图像映射(she)到(dao)一个(ge)低维的潜(qian)在空间；在文(wen)本(ben)(ben)编(bian)码(ma)上(shang)，采(cai)用三种不(bu)同的文(wen)本(ben)(ben)嵌入(ru)器来(lai)(lai)编(bian)码(ma)文(wen)本(ben)(ben)表示，包括两个(ge)CLIP模(mo)型和(he)T5。

随后(hou)，SD3通过添加位置编码，将(jiang)图像的(de)(de)潜在(zai)像素表示的(de)(de)2*2补(bu)丁（Patch）扁平化为补(bu)丁编码序(xu)列(lie)(lie)，构(gou)造了一个由文本嵌入(ru)和(he)图像输入(ru)组成的(de)(de)序(xu)列(lie)(lie)。

在将(jiang)该补丁编(bian)(bian)码和(he)文本编(bian)(bian)码嵌(qian)入到一个共同维度(du)后(hou)，SD3将(jiang)这两个序列(lie)连接起(qi)来，按照DiT的方(fang)法(fa)应用调制注意力和(he)MLP（多(duo)层(ceng)感知机）序列(lie)。

如下图(tu)（b）所(suo)示，SD3为每(mei)种模态设(she)置(zhi)了独(du)立的(de)Transformer，但在注意力(li)操作时，将(jiang)两(liang)种模态的(de)序列结(jie)合在一(yi)起。这(zhei)样(yang)一(yi)来，两(liang)种表征都能在各(ge)自(zi)的(de)空(kong)间(jian)内工(gong)作，同时也将(jiang)另一(yi)种空(kong)间(jian)考虑在内。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲MMDiT模型完整架构

SD3采(cai)用的(de)(de)是整流（Rectified Flow，RF）公(gong)式(shi)，它(ta)的(de)(de)前向过程更简单，采(cai)样(yang)速度更快。为了(le)证明改进(jin)的(de)(de)RF方法(fa)的(de)(de)优越性，作者(zhe)在(zai)2个数(shu)据集上训练了(le)61种不同的(de)(de)公(gong)式(shi)，包括各(ge)种扩散目(mu)标、损失函数(shu)以及(ji)不同的(de)(de)时间步采(cai)样(yang)。

数据方面，作者使(shi)用开源模型(xing)CogVLM生(sheng)成了(le)合成标记(ji)(ji)(ji)，最终的(de)数据集中有50%原始标记(ji)(ji)(ji)和50%合成标记(ji)(ji)(ji)，这些更加具(ju)有描述性的(de)合成标记(ji)(ji)(ji)极大地提升了(le)模型(xing)的(de)性能(neng)。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲使(shi)用合成数(shu)据对模型训练的提升(sheng)

模型训练方面，Stability AI称早期未优化的推理测试是在消费级硬件上进行的，其最大的80亿参数SD3模型适用于24GB显存的英伟达RTX 4090，使用50个采样步长生成分辨率为1024*1024的图像耗时34秒。此外，SD3将发布多种规(gui)模(mo)的版本(ben)，从8亿到80亿参数不等，以(yi)进一步(bu)消除硬(ying)件障碍。

三、生成式AI成果连发，图像视频音频3D语言全面布局

就在同一天，Stability AI还与3D重建平台Tripo AI合作推出了TripoSR，可在一秒内(nei)从单(dan)张图像生成高质量的3D模型(xing)。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲TripoSR输(shu)入(ru)输(shu)出示例

据(ju)介绍，TripoSR支持(chi)较低的推理预算，即使没有GPU也(ye)能(neng)运行。该模型基(ji)于Adobe的三维重(zhong)建模型LRM构(gou)建，主要针对娱(yu)乐、游戏(xi)、工(gong)业(ye)设计等(deng)行业(ye)需求。

在(zai)英伟达A100上进行测试(shi)时(shi)，TripoSR能在(zai)0.5秒(miao)生成草稿质量的三维纹(wen)理网(wang)格，优于(yu)OpenLRM等其他开源图生3D模型。

最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

▲TripoSR与OpenLRM等(deng)三维重建(jian)模型的比较

开源地址：

//github.com/VAST-AI-Research/TripoSR

密集的产品或模型发布并不是心血来潮，而是这家生成式AI独角兽的常态。仅仅2024年以来，它便在短短两个多月内连发5款新(xin)模(mo)(mo)型。除了昨天的SD3和TripoSR，还(hai)有(you)文(wen)生(sheng)图模(mo)(mo)型Stable Cascade、语(yu)音模(mo)(mo)型Stable LM 2 1.6B、代码模(mo)(mo)型Stable Code 3B。

成(cheng)立5年来，Stability AI在图(tu)像、视频(pin)、音(yin)频(pin)、3D和语言五个(ge)领域全(quan)方(fang)位(wei)布局生成(cheng)式AI，形成(cheng)了强(qiang)大的“Stable家(jia)族”。最重(zhong)要的是，它一直秉持着自(zi)己开源开放的原则，几(ji)乎所有模型都支持下(xia)载(zai)并发布了技术论文。据其(qi)官网数(shu)据，Stability AI在托(tuo)管平台Discord已拥有27万(wan)用户(hu)，基于其(qi)API（应用程序接口）生成(cheng)的图(tu)像超过4亿张(zhang)。

但同(tong)时，开源(yuan)也是(shi)一把(ba)双(shuang)刃剑(jian)，尤其(qi)是(shi)对于一家(jia)技术是(shi)主要竞争力的大模(mo)型(xing)公(gong)司而言——更不用说模(mo)型(xing)训练有多“烧钱”了。

2023年11月，Stability AI被曝由于财务(wu)状(zhuang)况压力巨大(da)正(zheng)在寻求出售。几乎同时(shi)，Stability AI宣布将(jiang)推出会员(yuan)模(mo)式(shi)，其CEO在社交平台X上提到“最近几周(zhou)的(de)情(qing)况表明，商业(ye)模(mo)式(shi)的(de)一致性在AI中(zhong)非(fei)常(chang)重要”。12月，Stability AI正(zheng)式(shi)推出三种(zhong)等级的(de)会员(yuan)制度，其中(zhong)专业(ye)级月费20美元(yuan)，可商用全(quan)套核(he)心模(mo)型(xing)。

结语：文生图开源社区再添一员巨将

Stability AI最近颇(po)有种“AI界汪(wang)峰”的感觉。

先是2月22日，推出超强(qiang)新(xin)版本文生(sheng)图模型(xing)Stable Diffusion 3，却被谷歌的开(kai)源大模型(xing)Gemma抢了(le)(le)风头。又(you)在昨天，开(kai)源图生(sheng)3D新(xin)模型(xing)TripoSR，结果撞(zhuang)上OpenAI最强(qiang)竞争对手Anthropic发布Claude 3，见(jian)证了(le)(le)GPT-4时代的“终结”。或许是咽不下(xia)这口气，Stability AI在同一天又(you)发布了(le)(le)这篇SD3论文，不仅披(pi)露了(le)(le)背(bei)后的MMDiT详细架构，还承诺SD3将全(quan)面开(kai)源。

在(zai)生成式AI的浪潮中，Stability AI坚持为(wei)开源(yuan)(yuan)社区添砖加瓦，为(wei)研(yan)究人员(yuan)和开发者提供了宝贵的资(zi)源(yuan)(yuan)。在(zai)技术论文(wen)中，我们(men)不仅(jin)看(kan)到(dao)了该(gai)模型的强大能(neng)力，也看(kan)到(dao)了Stability AI对其(qi)开源(yuan)(yuan)精神的信(xin)守(shou)承诺。

虽然Stability AI公(gong)司(si)内部管理(li)、CEO的处事风(feng)格等一直存(cun)在争(zheng)议，还(hai)被福布斯预告今年(nian)将会倒闭(bi)，但随着其一次次推动(dong)技(ji)术的边界，也向我们证(zheng)明了(le)在科技(ji)领域(yu)，技(ji)术才是最重要的“护(hu)城河”。

在SD3的预告中(zhong)，Stability AI还暗(an)示其(qi)可(ke)能会具备视频(pin)生成能力(li)。未来我们期(qi)待看到SD3等开源模(mo)型迸发出更(geng)多潜力(li)，造福更(geng)多用户和开发者。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、文字渲染完胜Midjourney，语义理解平均胜率超六成

二、基于Sora同款架构DiT，文本、图像采用两组独立权重

三、生成式AI成果连发，图像视频音频3D语言全面布局

结语：文生图开源社区再添一员巨将

相关推荐