文本到(dao)图像的(de)扩散模(mo)型在文本提示(shi)的(de)指导(dao)下展(zhan)示(shi)了前所未有的(de)创作能力,例如在视(shi)觉艺术、合成(cheng)数据(ju)集构建以及市场营销和广(guang)告中的(de)图像编(bian)辑等(deng)创意工(gong)作。然而,基于特定主题生成(cheng)个性(xing)化实例仍然具有挑战性(xing)。
为此,vivo影像规划预研部研究员官善琰等提出一种新(xin)的(de)(de)框架(jia)HybridBooth。该框架(jia)融合了基于优(you)(you)化(hua)和直接回归(gui)方法的(de)(de)优(you)(you)点,创(chuang)造一种平衡(heng)质量和速度的(de)(de)混合方法,从而实现了高效、精确(que)的(de)(de)主题驱动生成。相(xiang)关(guan)论文成果收录于ECCV 2024。

同时,深度学(xue)习在模(mo)拟(ni)复杂粒(li)子系统(如(ru)流体(ti)(ti)(ti))的(de)物理动(dong)力(li)学(xue)方面(mian)显示(shi)出(chu)巨大的(de)潜力(li)。然而(er),神经网(wang)络是否可(ke)以直(zhi)接(jie)从观察到的(de)图(tu)像(xiang)推(tui)断流体(ti)(ti)(ti)动(dong)力(li)学(xue)仍然是一个(ge)悬而(er)未决(jue)的(de)问题。对此官善琰(yan)研究员等提出(chu)了神经流体(ti)(ti)(ti)NeuroFluid,其为首(shou)个(ge)基于(yu)(yu)粒(li)子的(de)流体(ti)(ti)(ti)动(dong)力(li)学(xue)的(de)无监督学(xue)习解(jie)决(jue)方案。相关论文成果收录于(yu)(yu)ICML 2022。

NeuroFluid关键思想是在(zai)端到端可(ke)训(xun)练的(de)框(kuang)架中,将基(ji)于粒子(zi)(zi)的(de)流(liu)体模拟与(yu)粒子(zi)(zi)驱动(dong)的(de)神经渲染连接(jie)起来(lai),使两(liang)个(ge)网(wang)络(luo)可(ke)以联合(he)优(you)化,从而获得两(liang)者之间合(he)理的(de)粒子(zi)(zi)表示(shi)。实验(yan)数据(ju)表明,NeuroFluid学习了更加合(he)理的(de)流(liu)体动(dong)力学,可(ke)以在(zai)动(dong)态基(ji)础、预测和新视图合(he)成方面(mian)产生不错(cuo)的(de)结果。

《易经·说卦》有言:“穷理尽(jin)性,以至于命”。 人类能够轻松辨(bian)别(bie)内在动态并适应新场景,但如何(he)赋予(yu)机(ji)器(qi)像(xiang)人类一样“观察、理解和推(tui)(tui)理”物(wu)理世界的能力(li)往往面(mian)临巨大挑战。针对如何(he)从视觉观察中准(zhun)确地推(tui)(tui)断出实际的内在动力(li)学问(wen)题,官(guan)善(shan)琰研究(jiu)员等提出了(le)基于学习(xi)且具有物(wu)理知识先验的神经材料适配器(qi)NeuMA。相关论文成果收录于NeurIPS 2024。

NeuMA促进(jin)对实际动(dong)态的准(zhun)确学习,同时保(bao)持物理先验(yan)的通(tong)用性和可解(jie)释性。此外,还(hai)提出了一种粒子驱动(dong)的3D高斯(si)溅射变体Particle-GS,能够连接模拟和观察(cha)到的图(tu)像,允许通(tong)过反(fan)向(xiang)传播图(tu)像梯度来优化模拟器。

在(zai)不(bu)(bu)同材料(liao)和初(chu)始条件(jian)下对不(bu)(bu)同动态(tai)场(chang)(chang)景(jing)下的(de) NeuMA 进行了评估。该方法在(zai)物体(ti)动态(tai)基础和动态(tai)场(chang)(chang)景(jing)渲染方面具(ju)有竞争力,同时在(zai)新形状、多物体(ti)交互和长时间预测(ce)方面具(ju)有良好的(de)泛化性。


11月19日19点,智猩猩邀请到vivo影像规划预研部研究员官善琰参与「智猩猩通用视觉讲座」04讲,主讲《基于视觉的物理规律反演》。讲(jiang)座过程中将会分析(xi)当前视觉反(fan)演框架的(de)(de)局限(xian)性,介绍HybridBooth框架如何提(ti)升个(ge)性化反(fan)演精度,NeuroFluid在(zai)流体动(dong)力学中的(de)(de)应(ying)用,以及(ji)NeuMA神(shen)经材质(zhi)适配器在(zai)内在(zai)动(dong)态建模中的(de)(de)优势。这些方法为(wei)基于视觉的(de)(de)物理规律反(fan)演提(ti)供了(le)新(xin)的(de)(de)技术(shu)路径。
讲者
官善琰,vivo影像规划预研部研究员
1、一般视觉反演框架存在的问题
2、高效个性化属性反演框架HybridBooth解析
3、动力学视觉反演
-NeuroFluid解决视觉场景逆问题理解流体动力学
-神经材质适配器NeuMA提升内在动态建模精度
4. 实验比较与分析
直 播 信 息
直播时间:11月19日(ri)19:00
成果
论文标题
《HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation》
《Neurofluid: Fluid dynamics grounding with particle-driven neural radiance fields》
《NeuMA: Neural Material Adaptor for Visual Grounding of Intrinsic Dynamicas》
论文链接
//arxiv.org/abs/2410.08192
//arxiv.org/abs/2203.01762
//arxiv.org/abs/2410.08257
项目地址
//sites.google.com/view/hybridbooth
//github.com/syguan96/NeuroFluid
//xjay18.github.io/projects/neuma.html
如何报名
有讲座直播观看需求的朋友,可以添加小助手“沐可”进行报名。已添加过“沐可”的老朋友,可以给“沐可”私信,发送“通用视觉04”进行(xing)报名。对(dui)于通(tong)过报名的朋友,之后(hou)将(jiang)邀(yao)请(qing)入群进行(xing)观看(kan)和交流。
