智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西5月15日报道,腾讯文生图负责人芦清林周二宣布腾讯混元文生图大模型全面开源。
该模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,与腾讯混元文生图产品最新版本完全一致,基于腾讯海量应用场景训练,可供企业与个人开发者免费商用。
这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。
跟其他业界开源模型对比,混元DiT在多个维度上无短板,并在美学和清晰度维度上具有一定优势。其综合指标在所有开源和闭源算法中排名第三,实现(xian)开源版本中的SOTA。
评测(ce)数据显(xian)示,腾(teng)讯混(hun)元文生(sheng)图(tu)(tu)模(mo)型效(xiao)果远超开(kai)源的(de)Stable Diffusion模(mo)型及其他(ta)开(kai)源文生(sheng)图(tu)(tu)模(mo)型,是目前(qian)效(xiao)果最好的(de)开(kai)源文生(sheng)图(tu)(tu)模(mo)型;整体能力属于国际领先水平。
升级后的混元文生图大(da)模型(xing)采用了与(yu)Sora、Stable Diffusion 3一致的DiT架构,可(ke)支持文生图,也可(ke)作为视(shi)频等多模态视(shi)觉生成的基(ji)础。
混元文生图整体模型主要由3个部分组成:a)多模态大语言模型,支持用户文本改写以及多轮绘画;b)双语文本编码器,构建中英文双语CLIP理解文本,同时具备双语生成能力;c)生成模型,从U-Net升级为DiT,采用隐空间模(mo)型,生成多分(fen)辨率(lv)的图(tu)像,确(que)保(bao)图(tu)像整体的稳定结(jie)构。
GitHub项目页面(mian)建议(yi)使用具有(you)32GB内存的(de)GPU运行模(mo)型,以获得更好的(de)生(sheng)成质量。
在芦(lu)清林看来,此前开源与闭源文(wen)生图模型的差距(ju)逐渐(jian)拉大,他希望腾讯混元(yuan)文(wen)生图大模型的开源后能够将差距(ju)缩小(xiao)。
腾(teng)讯混元已面(mian)向社会全(quan)面(mian)开(kai)放,企业(ye)级用户或开(kai)发者(zhe)可(ke)通(tong)过腾(teng)讯云使用腾(teng)讯混元大模(mo)型(xing),个人用户可(ke)通(tong)过网页端与小(xiao)程(cheng)序体(ti)现腾(teng)讯混元的能力。
官网:
代码:
模型:
论文:
一、更懂中文的开源文生图大模型:基于DiT架构,多轮对话能力增强
过去(qu),视觉生(sheng)成扩(kuo)散模型(xing)主要基于(yu)U-Net架(jia)构,但随(sui)着参数量提升(sheng),基于(yu)Transformer架(jia)构的(de)扩(kuo)散模型(xing)(DiT)展(zhan)(zhan)现出了更(geng)好(hao)的(de)扩(kuo)展(zhan)(zhan)性(xing)。
U-Net只(zhi)懂(dong)图片,遇到难题易(yi)卡壳(qiao),而Transfomer能懂(dong)不同模态信息,参数/数据量越多越厉害(hai)。DiT是结合扩(kuo)散模型和Transformer架构的创新技术,有(you)高扩(kuo)展(zhan)和低(di)损失的优势,更易(yi)扩(kuo)展(zhan),有(you)助(zhu)于提(ti)升模型的生成质量及效率(lv)。
该架(jia)构通过(guo)Transformer block堆叠(die),可极(ji)大(da)提升(sheng)模型(xing)性能,并最大(da)程度(du)缓解U-Net下采样引入的信息压(ya)缩,提升(sheng)图像生成精度(du)和创造力。
据腾(teng)讯文生(sheng)图负责人芦清林分享,在原(yuan)始(shi)DiT架构之(zhi)上,混元(yuan)DiT有三大(da)升(sheng)级(ji):
一是强大建模能力,将文生(sheng)图(tu)(tu)架(jia)构从自研U-Net架(jia)构升(sheng)级为更大参数的(de)(de)DiT模(mo)(mo)(mo)型,提升(sheng)图(tu)(tu)像质量(liang)和扩(kuo)展能(neng)力(li),让DiT架(jia)构具备了长文本(ben)理解(jie)能(neng)力(li),支(zhi)持最长256个字符(fu)的(de)(de)图(tu)(tu)片生(sheng)成指令;同(tong)时利用(yong)多模(mo)(mo)(mo)态大语(yu)言模(mo)(mo)(mo)型,对(dui)简(jian)单/抽象的(de)(de)用(yong)户指令文本(ben)进行强化,转写(xie)成更丰(feng)富/具象的(de)(de)画面文本(ben)描述,最终提升(sheng)文生(sheng)图(tu)(tu)的(de)(de)生(sheng)成效果。
二是增加中文原生的理解能力,自主训练中文(wen)(wen)(wen)(wen)原生文(wen)(wen)(wen)(wen)本编(bian)码器,让(rang)中文(wen)(wen)(wen)(wen)语义理(li)解能(neng)力更强,对中文(wen)(wen)(wen)(wen)新(xin)概念学习速(su)度(du)更快,对中文(wen)(wen)(wen)(wen)认知更深刻,同时(shi)让(rang)模型更细致地分辨(bian)不同粒度(du)文(wen)(wen)(wen)(wen)本信息。
三是增强多轮对话能力,与自(zi)研大(da)语(yu)言模型(xing)结合,让(rang)模型(xing)具备上下(xia)文连(lian)贯的(de)(de)理(li)解(jie)能力,同时(shi)通过(guo)技术(shu)手段控(kong)制(zhi)同一话题与主(zhu)体(ti)(ti)下(xia)图片主(zhu)体(ti)(ti)的(de)(de)一致性。
1、升级一:核心算子升级,从UNet升级到DiT
学术界(jie)去年提出基础(chu)DiT架构(gou),混元DiT在此之上进一步升级,有更(geng)(geng)(geng)强语义编(bian)码,针对更(geng)(geng)(geng)长、更(geng)(geng)(geng)复杂(za)的文本能理解得(de)更(geng)(geng)(geng)准确(que),原生中英双语支(zhi)持,尺寸更(geng)(geng)(geng)易扩展。
混元DiT架构具备更(geng)稳定的(de)训练过(guo)程,通(tong)过(guo)优化模型(xing)结构,支(zhi)持(chi)数十亿参(can)数和1024分辨率的(de)模型(xing)稳定训练。它还(hai)拥有(you)更(geng)好的(de)生态兼容(rong)性,可(ke)灵活支(zhi)持(chi)ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社区(qu)的(de)插件。
同时,该架构支持输出多分(fen)辨(bian)(bian)率图像(xiang),提升不同分(fen)辨(bian)(bian)率生(sheng)成(cheng)图像(xiang)的质量,包括1:1、4:3、2:4、16:9、9:16等多种分(fen)辨(bian)(bian)率,支持768~1280分(fen)辨(bian)(bian)率图像(xiang)生(sheng)成(cheng)。
2、升级二:语言编码器升级-支持原生中文理解能力
混元(yuan)文(wen)生图(tu)是首个中文(wen)原生的DiT模型,具备中英文(wen)双语理解及生成能力,在(zai)古(gu)诗词、俚(li)语、传统建筑、中华美食(shi)等中国元(yuan)素生成上表(biao)现(xian)出色。
通过语(yu)言(yan)(yan)编码器(qi)升级,混元DiT架构对(dui)中(zhong)文的认(ren)知更加深刻,相比核(he)心(xin)数(shu)据集(ji)以(yi)英(ying)文为主的Stable Diffusion等主流开源(yuan)模(mo)型,能更好理解(jie)中(zhong)国的语(yu)言(yan)(yan)、美食(shi)、文化、习俗、地标等。
比(bi)如在生(sheng)(sheng)成(cheng)昆(kun)曲艺术家(jia)表演的图(tu)像时,混元文(wen)(wen)生(sheng)(sheng)图(tu)在理解昆(kun)曲艺术方面明显比(bi)其他国外主流文(wen)(wen)生(sheng)(sheng)图(tu)模型更准确。
升(sheng)级的混元文生图能更细(xi)致地分辨不同(tong)信(xin)息。其训(xun)练(lian)方式是(shi)把数据做(zuo)(zuo)成正负样本(ben),对比学习(xi)损失,让模型(xing)学会什么是(shi)对、什么是(shi)错(cuo),做(zuo)(zuo)到理解和表达更细(xi)致的属性。
比如输(shu)入一段涉(she)及大量细(xi)(xi)节(jie)描述的文字,混(hun)元文生图能(neng)够精细(xi)(xi)理解文字要求,生成(cheng)符合各种(zhong)细(xi)(xi)节(jie)的图像。
3、升级点3:多轮绘图和对话能力增强
混元(yuan)文生(sheng)图在算法层面创(chuang)新实现了多轮生(sheng)图和(he)对话能力,可在一张(zhang)初始生(sheng)成图片的(de)(de)基(ji)础上(shang)通过(guo)自然语言描述进行调(diao)整,达到更(geng)满意的(de)(de)效果。
比如(ru)起初(chu)输(shu)入指令“生成一(yi)朵长在森(sen)林中的白色(se)(se)玫瑰”,再要(yao)求(qiu)“改(gai)成百(bai)合花”、“改(gai)成粉色(se)(se)”、“改(gai)成动漫(man)风(feng)格”;起初(chu)输(shu)入指令“画(hua)一(yi)只色(se)(se)彩斑斓(lan)的折(zhe)纸(zhi)小狐狸(li)折(zhe)纸(zhi)”,再要(yao)求(qiu)“把背景换成沙漠”、“把狐狸(li)换成小狗”。
模型交互(hu)难(nan)度进一(yi)步降低,用户无需(xu)进行复(fu)杂生(sheng)图(tu)提(ti)示词指令编(bian)写。混元文生(sheng)图(tu)能实(shi)现多(duo)轮(lun)(lun)(lun)图(tu)文指令理解,支持多(duo)轮(lun)(lun)(lun)交互(hu)式(shi)图(tu)片编(bian)辑生(sheng)成,支持十轮(lun)(lun)(lun)以上的对话。
二、去年7月投入DiT研发,从零开始训练,全链路自研
腾讯混(hun)元团队认为基于Transformer架(jia)构的扩散模型(如DiT)具有(you)更大的可(ke)扩展性,很可(ke)能成为文(wen)生图(tu)、生视频、生3D等多模态视觉生成的统一架(jia)构。
2023年(nian)(nian)7月起,业界研究DiT的(de)团(tuan)队(dui)还不(bu)多,当(dang)时混元文生(sheng)图就明确了(le)基(ji)于DiT架(jia)构的(de)模型方(fang)向(xiang),并启动了(le)长达半年(nian)(nian)的(de)研发、优化、打磨。今(jin)年(nian)(nian)年(nian)(nian)初,混元文生(sheng)图大模型已全面升级为DiT架(jia)构,并在(zai)多个评(ping)测(ce)维(wei)度超越了(le)基(ji)于U-Net的(de)文生(sheng)图模型。
数据显(xian)示(shi),在通用场景下,基于DiT视(shi)觉(jue)生(sheng)成模型的文(wen)生(sheng)图(tu)效(xiao)果(guo),相比前(qian)代视(shi)觉(jue)生(sheng)成整体(ti)效(xiao)果(guo)提(ti)(ti)升(sheng)(sheng)20%,画面真实感、质感与细节、空间构(gou)图(tu)等(deng)全(quan)面提(ti)(ti)升(sheng)(sheng),并在细粒度、多轮对话(hua)等(deng)场景下效(xiao)果(guo)提(ti)(ti)升(sheng)(sheng)明显(xian)。
这(zhei)里(li)面存(cun)在极(ji)大(da)难(nan)点:首先,Transformer架构(gou)本(ben)身并不具备用户语(yu)言生(sheng)(sheng)图能力;其次(ci),DiT本(ben)身对算力和数(shu)据量要(yao)求极(ji)高(gao),文生(sheng)(sheng)图领域缺乏高(gao)质量的图片描述与图像样本(ben)训练数(shu)据。
腾讯(xun)混元团队在(zai)算法层(ceng)面优化(hua)了(le)模(mo)型(xing)的长文本理解能力(li),能够支持最多256个(ge)字符的内容输入(ru)(业界主流是77个(ge)),从(cong)零开始(shi)训(xun)练,做(zuo)到(dao)全(quan)链路(lu)自研(yan)(yan),在(zai)模(mo)型(xing)算法、训(xun)练数据集与(yu)工程(cheng)加速(su)多个(ge)层(ceng)面进(jin)行了(le)系统(tong)化(hua)的创新研(yan)(yan)发。
针对(dui)文生(sheng)(sheng)图(tu)训(xun)(xun)练数据缺乏、普(pu)遍质量(liang)不(bu)高的问题,腾讯混元团队通过优化(hua)图(tu)片(pian)描述能力、样本评估机制等提(ti)升(sheng)文生(sheng)(sheng)图(tu)训(xun)(xun)练数据的规模和质量(liang),同(tong)时利(li)用多模态大语言模型强(qiang)化(hua)与丰富用户(hu)指令文本,从而提(ti)升(sheng)最(zui)终文生(sheng)(sheng)图(tu)效(xiao)果。
混元文生图大模型基于腾讯自研的Angel机器学习平台进行训练,大幅提升了训练效率。为了更好地提升模型训练与运行效率,提升算力资源利用率,团队为该模型构建专属工程加速工具库。
三、开源领域自主可控,填补中文原生DiT文生图架构空白
为什么(me)选择在这个节点开源(yuan)(yuan)?在媒(mei)体交流环节,芦(lu)清林谈到这主要出(chu)于两点考虑,一是在业界投入DiT研发的(de)时(shi)间早,经历长时(shi)间的(de)打磨,成熟度达到开源(yuan)(yuan)条件(jian);二是看到业界需要开源(yuan)(yuan)中文原生DiT文生图(tu)模型。
过(guo)去业界文生(sheng)图大多基(ji)于(yu)Stable Diffusion,开源社区(qu)(qu)有数量庞大的开发者和创作者,基(ji)于(yu)Stable Diffusion精调出(chu)了(le)丰富的垂直场景(jing)模型(xing),同(tong)时(shi)衍生(sheng)出(chu)大量国内外模型(xing)分享与流通社区(qu)(qu)。
主要(yao)(yao)的文生图开源社区依然主要(yao)(yao)基(ji)于U-Net架(jia)(jia)构(gou)模型进(jin)行开发(fa),仍未有比(bi)较先进(jin)的DiT架(jia)(jia)构(gou)充分开源。而(er)无论Stable Diffusion 3还是Sora都(dou)采用DiT架(jia)(jia)构(gou)来构(gou)建下一代图像(xiang)/视(shi)频生成能(neng)力。开源社区缺乏先进(jin)/成熟的DiT架(jia)(jia)构(gou)开源利用,业界也难以(yi)快速吸收学术(shu)界大模型前沿技术(shu)。
中(zhong)(zhong)文原生(sheng)的DiT文生(sheng)图架(jia)构同样是缺(que)失(shi)的。在中(zhong)(zhong)文场(chang)景(jing),很(hen)多团队基于(yu)翻译(yi)+英文开源Stable Diffusion模型,导(dao)致(zhi)在中(zhong)(zhong)文特有的场(chang)景(jing)、人物(wu)(wu)、事物(wu)(wu)上(shang)表现(xian)比较差。
还有一(yi)些(xie)团队(dui)基(ji)于少量(liang)的(de)(de)中文(wen)数(shu)据(ju)在一(yi)些(xie)特殊(shu)的(de)(de)场景做(zuo)了微调(diao),让模型去适配(pei)某个特殊(shu)的(de)(de)领域或(huo)者风格(ge)。但直接用英文(wen)预训练的(de)(de)模型+中文(wen)小数(shu)据(ju)微调(diao)也存在对(dui)中文(wen)理(li)解不足和不通用的(de)(de)问题。
即使国(guo)外有些论文公开,这些架构更多偏英文,对中(zhong)(zhong)文理解差,而且(qie)没在(zai)(zai)大众中(zhong)(zhong)做验证,在(zai)(zai)中(zhong)(zhong)文应(ying)用场景受限。由中(zhong)(zhong)文翻(fan)译(yi)(yi)成英文可(ke)能会导致出图有歧义(yi),比如中(zhong)(zhong)文“一只很热(re)的狗在(zai)(zai)餐厅”翻(fan)译(yi)(yi)成英文“A very hot dog in the restaurant”就变(bian)味了,会生成“一盘热(re)狗(hot dog)”图。
而开源DiT研发成(cheng)果,意味(wei)着(zhe)全球个人(ren)和企业开发者都(dou)能直接都(dou)能直接用(yong)上了最先进的架构,不(bu)用(yong)自己重新研发和训练,大大降(jiang)低了AI使用(yong)门槛,也节省了人(ren)力物力。
基(ji)于腾讯此次开源的(de)文生图模型,开发者及企业无需(xu)重头训练,即(ji)可(ke)(ke)直接用于推(tui)理,并可(ke)(ke)基(ji)于混元文生图打(da)造专属的(de)AI绘画应用及服(fu)务,能够(gou)节约大量人力(li)及算(suan)力(li)。透明公(gong)开的(de)算(suan)法也让模型的(de)安全性和可(ke)(ke)靠性得到(dao)保障(zhang)。
基(ji)于开(kai)放的(de)混(hun)元文生(sheng)图基(ji)础模(mo)型,还有利于在以Stable Diffusion等为主的(de)英文开(kai)源社区之外丰(feng)富以中(zhong)文为主的(de)文生(sheng)图开(kai)源生(sheng)态(tai),形(xing)成更(geng)多样(yang)的(de)原生(sheng)插件,推(tui)动中(zhong)文文生(sheng)图技术研(yan)发和应用(yong)。
腾(teng)(teng)(teng)讯(xun)已开源超(chao)170个(ge)优质项目,均来源于腾(teng)(teng)(teng)讯(xun)真实业务场景(jing),覆盖微信、腾(teng)(teng)(teng)讯(xun)云、腾(teng)(teng)(teng)讯(xun)游戏(xi)、腾(teng)(teng)(teng)讯(xun)AI、腾(teng)(teng)(teng)讯(xun)安全等核心(xin)业务板(ban)块(kuai),目前在Github上(shang)已累计获得超(chao)47万开发(fa)者关注及点赞。
结语:全面开源,惠及行业,已在探索更大参数量的模型
此前(qian)的开(kai)源生态、数(shu)据集均以英文为主(zhu),建设中(zhong)文原(yuan)生的文生图(tu)开(kai)源模型、中(zhong)文的文生图(tu)开(kai)源生态,是十分(fen)必(bi)要(yao)的。
此(ci)次(ci)把最新一代模型完(wan)整开(kai)源(yuan)出来,腾讯混元团队希望(wang)与行业共享(xiang)在(zai)文(wen)生图(tu)领域的实践经验和研究成(cheng)果(guo),丰富中文(wen)文(wen)生图(tu)开(kai)源(yuan)生态(tai),共建下一代视觉生成(cheng)开(kai)源(yuan)生态(tai),推动大模型行业加速发展。
芦清林分享说,混元文生图的后续优化(hua)方向包(bao)括提升技术能(neng)力和在更(geng)广泛的场景(jing)中应用。
腾讯(xun)(xun)(xun)混(hun)元(yuan)文生图(tu)(tu)能力已广泛(fan)被用(yong)于素材创(chuang)作、商品合成(cheng)、游戏出图(tu)(tu)等多项业务(wu)及场景中。今(jin)年初(chu),腾讯(xun)(xun)(xun)广告基于腾讯(xun)(xun)(xun)混(hun)元(yuan)大(da)模型发布了一站式AI广告创(chuang)意(yi)平台腾讯(xun)(xun)(xun)广告妙思。《央视新闻》《新华日报(bao)》等20余家媒体也已经将腾讯(xun)(xun)(xun)混(hun)元(yuan)文生图(tu)(tu)用(yong)于新闻内容生产。
据芦清(qing)林(lin)透(tou)露(lu),目前混元文生图大(da)模(mo)型的(de)(de)参(can)数规模(mo)是15亿,同时团队已经在探索参(can)数量(liang)更大(da)的(de)(de)模(mo)型。他坦言模(mo)型在写中(zhong)文文字的(de)(de)效果上还没做到非常(chang)成熟,等做好后也会拿出来分享。













