智东西AI前瞻(公众号:zhidxcomAI)
作者|江宇
编辑|漠影

智东西AI前瞻9月9日报道,今日,字节跳动Seed团队正式发布新一代图像创作模型Seedream 4.0(即梦图片4.0模型)

作为该系列迭代以来的一次整合升级,Seedream 4.0在一套模型架构中集成了文生图、图像编辑、草图控图、风格迁移等多种能力,并支持最高4K分辨率图像生成,现(xian)已接入(ru)即梦、豆包等平台。

这一版本的发布,恰(qia)逢(feng)Google图(tu)(tu)(tu)像生(sheng)成模型Nano Banana(Gemini 2.5 Flash Image)在社交(jiao)媒体刷屏走红之(zhi)际。相比之(zhi)下,Seedream 4.0也(ye)带(dai)来了完整的多(duo)(duo)模态创(chuang)作能力(li),不仅支持自定义图(tu)(tu)(tu)像比例(li)、多(duo)(duo)图(tu)(tu)(tu)融合与复(fu)杂结构(gou)推(tui)理,在中文(wen)文(wen)字生(sheng)成、图(tu)(tu)(tu)像清晰度与任务(wu)一致性等关键能力(li)上,具备鲜明优势。

在Seed团队构建(jian)的评测体系中(zhong),Seedream 4.0在文生图与图像编辑(ji)两项任务的综(zong)合(he)Elo评分,已(yi)超越Nano Banana(Gemini 2.5 Flash Image)。

智东西先试了试用它给VOGUE二十(shi)周年群(qun)像封面(mian)改(gai)风格。在豆(dou)包(bao)(bao)对话页面(mian)点击“豆(dou)包(bao)(bao)P图(tu)”,上传照片,默认模型(xing)便(bian)是即梦(meng)4.0,输入(ru)文字描(miao)述,等待(dai)近30秒,豆(dou)包(bao)(bao)就能一次(ci)性(xing)生成2张(zhang)符合描(miao)述的(de)图(tu)片。

我们让它生(sheng)成了复古港风(feng)、未来赛博朋克、洛可可宫廷风(feng)、Y2K千禧(xi)辣妹风(feng)、极简(jian)现(xian)代摄影(ying)风(feng)和古风(feng)等风(feng)格。从生(sheng)图效果来看,模型(xing)在整体风(feng)格还原上表现(xian)较好,无论(lun)是背景氛(fen)围、光影(ying)色调,还是人(ren)物造型(xing),都能(neng)做到较统一的风(feng)格转换,不足之(zhi)处(chu)是人(ren)脸五(wu)官特征出现(xian)变(bian)形,人(ren)名栏也变(bian)模糊。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲豆(dou)包修改的VOGUE二十周年(nian)群像封面 ()

在(zai)(zai)初(chu)步体(ti)验的基(ji)(ji)础(chu)上(shang),智东(dong)西进一步参(can)考Seedream 4.0官(guan)方提出(chu)(chu)的八类(lei)基(ji)(ji)础(chu)能力场景(jing),设计了一组Prompt,并将同一任(ren)务(wu)同步交由Nano Banana执行,围绕精准编(bian)辑(ji)、控图(tu)生(sheng)成、手(shou)办建模、多(duo)图(tu)输(shu)出(chu)(chu)、中文排版等维度,观察两款模型在(zai)(zai)生(sheng)成效(xiao)果上(shang)的差异。

一、八种玩法实测,Seedream 4.0和Nano Banana短兵相接

Seed团队给出了Seedream 4.0的八类基础玩法,官方将其归纳(na)为:精准编辑、灵(ling)活参考(kao)、控图生成、上下文(wen)推理、多图融合、多图输出、文(wen)字(zi)渲(xuan)染(ran)和自适应(ying)画布。

智东(dong)西围(wei)绕每类能力(li),设置了实战Prompt,并同步用Nano Banana跑同一任务,来看谁的(de)生成更(geng)稳定、画面更(geng)自(zi)然、任务理解(jie)力(li)更(geng)强。

以下体验均为真实(shi)测(ce)试结果,欢迎读者复(fu)制指令自行复(fu)现。

1、中文写实图生成+精准编辑(Precise Editing)

Prompt:一(yi)个亚洲面(mian)孔女孩坐在江边(bian)看书,身边(bian)放着咖(ka)啡(fei)和一(yi)本笔记本,黄昏(hun)时分(fen)水面(mian)反光,构图(tu)为(wei)3:2横(heng)图(tu),风格为(wei)写实摄影。

补充指令1:发色(se)为粉色(se)。

补充(chong)指令(ling)2:背(bei)景为图书馆(guan)。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

补充(chong)指令1:发(fa)色为粉色。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

补充指令2:背景(jing)为(wei)图书馆(guan)。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

这组图(tu)最能拉开(kai)“写(xie)实(shi)能力(li)”的差距。Seedream 4.0对补充指令(ling)的理解更精准,效果也更自然。不仅发色和波光粼粼的这类细节(jie)更为写(xie)实(shi),场景切换(huan)到图(tu)书馆(guan)后,依旧(jiu)能维持整体画面协调。

而(er)Nano Banana在补(bu)充(chong)“背景为图书馆”的指(zhi)令(ling)后,画(hua)面(mian)中的人(ren)物姿态上(shang)就略显(xian)僵硬。

2、多图参考生成(Multi-Image Reference Generation)

Prompt:请(qing)将参考(kao)图中的衣(yi)服、鞋子和配饰整体换到模特身上,确保服装贴合身形(xing),面部特征(zheng)和姿势(shi)保持一(yi)致,生(sheng)成图像风格与参考(kao)图一(yi)致。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲参考图

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

这(zhei)组体验中,Seedream 4.0的表现(xian)略(lve)逊。虽然衣物与(yu)姿态基本(ben)对得上(shang)(shang),但服饰的款式并未(wei)完(wan)全复刻。在图像理解上(shang)(shang),未(wei)能准确(que)识别参考图上(shang)(shang)衣服的褶皱。

反观(guan)Nano Banana的效果更自然流(liu)畅,整体(ti)穿搭更“贴身”。

3、 草图控图/视觉信号可控生成(Visual Signal Controllable Generation)

Prompt 1:根据上传的手绘草(cao)图生(sheng)成(cheng)现代极(ji)简风(feng)格(ge)客厅(ting)实景图,保留草(cao)图中家具位置,房(fang)间(jian)挑高,光线明亮。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲参考图

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

Prompt 2:为一张包含两个(ge)人物(wu)的动作(zuo)线(xian)稿(gao)进(jin)行(xing)上色,动作(zuo)姿势与线(xian)稿(gao)图保持完(wan)全一致,人物(wu)比(bi)例和细节(jie)需严格遵循参考图。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲参考图

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

这一(yi)类(lei)任务中,Seedream 4.0展现出(chu)了更强的(de)(de)一(yi)致性,动(dong)(dong)作还原几乎“丝滑贴(tie)(tie)线”。Nano Banana的(de)(de)优势则在人物细节(jie)与氛围感,但在贴(tie)(tie)合(he)线稿(gao)的(de)(de)控(kong)制上略有波(bo)动(dong)(dong)。

4、手办生成/灵活参考(Flexible Reference)

Prompt:绘制(zhi)图中角色的(de)1/7比例(li)商(shang)业(ye)化(hua)手办,写(xie)实风格,场景设定为电脑桌,亚(ya)克力底(di)座,旁边有(you)印有(you)原画的(de)包装盒和ZBrush建(jian)模(mo)画面。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

这(zhei)类任务曾是(shi)Nano Banana走红社媒(mei)的“代(dai)表作”,这(zhei)次(ci)Seedream 4.0也(ye)做得颇(po)为出色,手(shou)办(ban)质感真(zhen)实,周边元素丰富,构图也(ye)更完整。

5、多图输出(Multi-Image Output)

Prompt:参考这个(ge)LOGO,做一套户(hu)外运(yun)动品(pin)牌(pai)视觉设计(ji),品(pin)牌(pai)名(ming)称为“GREEN”,包(bao)括包(bao)装袋、帽(mao)子、卡片、手环、纸盒(he)、挂绳等,绿色为主(zhu)色调,简约(yue)现代(dai)风。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲参考图

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

这类多图输(shu)(shu)出任务,是考验模型细(xi)节、统一性与(yu)输(shu)(shu)出清(qing)晰(xi)度(du)(du)的硬仗(zhang)。Nano Banana生成结果(guo)清(qing)新(xin)可爱,但有些空泛。而Seedream 4.0能保持多图风(feng)格一致,外加(jia)高清(qing)晰(xi)度(du)(du),也(ye)更适合商业展示。

6、高级文字渲染与排版(Advanced Text Rendering)

Prompt 1:生成一张中文海报,主标题为“城(cheng)市(shi)绿色(se)出行倡(chang)议(yi)”,副标题为“打造(zao)未来(lai)低碳生活方式”,底部有二维码和品牌LOGO。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

Prompt 2:生成送货(huo)机器人的手绘草(cao)图,含(han)文字(zi)、公式、表格、统计图等元素。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

在中文(wen)字处(chu)理这(zhei)一(yi)项,Seedream 4.0是“降维打击”。文(wen)本清晰(xi)度、字形规(gui)整性与位置排布(bu)都表(biao)现(xian)稳定,有“直接交(jiao)付”的潜力。

而Nano Banana则依旧存在“中文混乱”的(de)老问题。

7、上下文推理生成(In-Context Reasoning Generation)

Prompt:时间从中(zhong)午12点过去11小时15分钟,房间光线变暗,闹钟时间应同步变化。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

Seedream 4.0不仅调暗了室内光(guang)线,窗(chuang)外(wai)景色也配合“入夜”,连闹钟(zhong)显(xian)示(shi)时(shi)间也匹配。而(er)Nano Banana虽然(ran)场景变暗,但窗(chuang)外(wai)还(hai)是大白天,可(ke)见“推理”这(zhei)一步还(hai)没跟上。

8、自适应比例与4K生成(Adaptive Aspect Ratio & 4K Generation)

Prompt:生成一张(zhang)16:9横版构图(tu)的城市夜景(jing)俯瞰图(tu),建筑灯光清晰,要求图(tu)像分(fen)辨(bian)率为4K。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Seedream 4.0

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲Nano Banana

Seedream 4.0一(yi)键输出(chu)4K高(gao)分图,比例、光影、清晰度(du)都达标。Nano Banana则提(ti)示“当(dang)前不支(zhi)持生成(cheng)4K图像”,尽管构(gou)图不错,但解析(xi)度(du)还是有(you)局限。

二、一套模型通吃文生图与编辑,推理速度提升10倍

Seedream 4.0在架构设计上完成(cheng)了一次整合式升级(ji),将前(qian)代(dai)文(wen)生图(tu)模型Seedream 3.0与图(tu)像编辑(ji)模型SeedEdit 3.0融合为一套统一模型架构。

核心创新包括:

1、DiT架构+高压缩比VAE:构建了一个高效率的扩散Transformer模型,训练与推理速度提升10倍

2、VLM模块加持:引入SeedVLM模块,强化对图像语义、世界知识的理解,增强多模态上下文推理能力

3、联合训练机制:通过CT、SFT、RLHF三阶段全链(lian)路训练,将生成与编辑任务(wu)进行融合优化(hua),在(zai)图像结构还原度、风格(ge)一致(zhi)性、文字理解力上表现更佳;

4、大规模多模态数据链路:结合(he)视(shi)频抽帧(zhen)、HTML内容检索(suo)、专家模型合(he)成等方式(shi),构建出大规模高质量(liang)训(xun)练数据集(ji);

5、推理效率优化:引入对抗蒸馏、分布匹配、推测解码等机制,在保持质量的同时大幅减少生成耗时,2K图像可秒级完成生成

在保持生成质量(liang)稳定(ding)的同时,Seedream 4.0还提供(gong)了(le)图(tu)像尺寸、画面比例、风(feng)格控制(zhi)等细致参数设(she)置,并(bing)原(yuan)生集成了(le)草图(tu)、Canny、Depth、Mask等控图(tu)通(tong)道,无需(xu)额外模(mo)型支持。

三、评测成绩:图像编辑任务Elo评分超Nano Banana,文生图能力稳中有短板

根据Seed团队在MagicBench评测基准上的结果,Seedream 4.0在图像编辑任务(Single-Image Editing Evaluation)中整体表现较为均衡,综合评分(Overall Elo)略高于模型Nano Banana(Gemini 2.5 Flash Image)。在“文字渲染(Text Rendering)”、“人工评价得分(DreamEval, bo4/avg)”等维度(du)表现(xian)突出,特(te)别是在中(zhong)文内容(rong)处理上具(ju)备(bei)明显优势。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲图片编辑(ji)任务综合评测

在“指令对(dui)齐(Alignment)”方(fang)面(mian),Seedream 4.0与模型Nano Banana(Gemini 2.5 Flash Image)处(chu)于同一水平,略(lve)低于GPT-Image-1;而在“一致性(Consistency)”和(he)“结构还原(Structure)”上,相比模型Nano Banana(Gemini 2.5 Flash Image)略(lve)有不足,但整体(ti)差距不大。

字节新王炸!即梦新版6大能力超谷歌香蕉模型,豆包P图又变强了!

▲文生图(tu)任(ren)务综(zong)合评测

在文生图任务(Text-to-Image Evaluation)中,Seedream 4.0在“美学表现(Aesthetics)”维度得分相对较高;但在“结构还原(Structure)”、“文字渲染(Text Rendering)”、“语义对齐(Alignment)”和“错误纠正(Correction)”等指标上,相比GPT-Image-1略逊一筹,整体评分略低于后者,比模型Nano Banana(Gemini 2.5 Flash Image)整体能力突出。

整(zheng)体来看,Seedream 4.0在图像编辑场(chang)景中具备较(jiao)强能力,而在自由(you)生(sheng)成(cheng)类的文生(sheng)图场(chang)景中,其基础能力稳定,仍(reng)有(you)部分生(sheng)成(cheng)一(yi)致(zhi)性(xing)和对抗复杂场(chang)景的提升空(kong)间。

结语:一个更实用、更本地化的国产图像模型

通过一轮多维度的实际体验与评测(ce)对比可以(yi)看出,Seedream 4.0在(zai)图像生成(cheng)能力(li)上的表现更加成(cheng)熟,特别是在(zai)中文场景(jing)下具备(bei)明显优势。

它为用户提供了更(geng)高的(de)控制自由(you)度,也具备支持商(shang)业、设计、教育等专业场景的(de)基础(chu)能力。在国产图像模型不(bu)断(duan)演(yan)进的(de)过(guo)程(cheng)中(zhong),Seedream 4.0或许已代(dai)表(biao)了当前图像生成(cheng)领(ling)域的(de)一个稳定阶(jie)段成(cheng)果。