在图像生成(cheng)(cheng)领域,高(gao)分辨(bian)率(lv)图像的生成(cheng)(cheng)一直是(shi)一个具有挑战性的工作。Stable Diffusion等强大的预训(xun)练扩散(san)模(mo)型目前可以生成(cheng)(cheng)1024×1024像素的高(gao)质量图像。但(dan)生成(cheng)(cheng)更(geng)高(gao)分辨(bian)率(lv)的图像(2K-4K)会遇到不(bu)合理(li)的重复物体问(wen)题,并且生成(cheng)(cheng)时间成(cheng)(cheng)倍增加。
为解决这些问题,旷视研究院高级研究员张慎等研究(jiu)人员提出了一个(ge)无需训练的(de)更(geng)高分辨率图像生成框架(jia)(jia) HiDiffusion。该框架(jia)(jia)通(tong)过动态调(diao)整特征图大小来解决重复物体(ti)问题,同时改进自注意力(li)机制实现(xian)推理速度的(de)提升。相关论文为(wei)《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》,已收录于ECCV 2024。

HiDiffusion框架主要由两部分(fen)(fen)组(zu)成:分(fen)(fen)辨率感(gan)知(zhi)U-Net(RAU-Net)和(he)改进的(de)移动窗口多头自(zi)注意力 (MSW-MSA)。
RAU-Net通(tong)过(guo)动(dong)态(tai)调(diao)整特征图的(de)大小来解决高分辨率(lv)图像生成中的(de)对(dui)象重复问题。这种(zhong)调(diao)整是为(wei)了匹配U-Net深层块中卷积(ji)的(de)感受野,从而确保在(zai)生成更高分辨率(lv)图像时不(bu)(bu)会发生特征重复而导(dao)致(zhi)不(bu)(bu)合(he)理的(de)对(dui)象重复现象。
MSW-MSA通过(guo)使用更大(da)的(de)(de)窗口来减(jian)少不(bu)必(bi)要的(de)(de)计(ji)算,并动(dong)态移动(dong)窗口来优化自(zi)注意力(li)机制。这(zhei)种方法可以更有效地(di)利用计(ji)算资源,同时保持对全(quan)局信息的(de)(de)捕捉。
HiDiffusion可以(yi)(yi)集成到各(ge)种(zhong)预训练扩(kuo)散(san)模型中,将(jiang)图(tu)像(xiang)生成分(fen)(fen)辨(bian)率扩(kuo)展到2K-4K,同(tong)时推理速度(du)是(shi)以(yi)(yi)前(qian)方法的1.5-6倍。大量实验(yan)表明,HiDiffusion框架可以(yi)(yi)解决(jue)对象(xiang)重复和(he)计算量大的问题,并且在更高分(fen)(fen)辨(bian)率图(tu)像(xiang)生成任务上达到最好(hao)的性能。

讲者
张慎
第2讲
主题
HiDiffusion:高效、无需训练的更高分辨率(lv)图像(xiang)生成框架
提纲
1、扩散模型目前存在的更高分辨率生成问题
2、RAU-Net解决图像生成中物体重复问题
3、MSW-MSA解决更高分辨率的效率问题
4、更高(gao)分辨率(lv)的图像(xiang)生(sheng)成结果(guo)和(he)效率(lv)展(zhan)示
直播信息
直播时间:10月24日(ri)10:00
成果
论文标题
《HiDiffusion: Unlocking higher-resolution creativity and efficiency in pretrained diffusion models》
论文链接
//arxiv.org/abs/2311.17528v2
项目网站
//hidiffusion.github.io/
如何报名
有讲座直播观看需求的朋友,可以添加小助手“沐可”进行报名。已添加过“沐可”的老朋友,可以给“沐可”私信,发送“通用视觉2402”进行报(bao)名。对于通过(guo)报(bao)名的朋友,之后将邀(yao)请入群进行观看和交流(liu)。
