为此,清华大学自动化系提出一个基于高斯世界模型的流式三维语义占用预测模型GaussianWorld,现已开源。与GaussianWorld相关的论文成果已投稿CVPR 2025,清华大学自动化系智能视觉实验室(IVG)博(bo)士生左思成为论(lun)文一(yi)作(zuo)。

GaussianWorld采用显式3D高斯作为场景表示,而不是传统的隐式 BEV/Voxel 表示,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前(qian)视觉输入,GaussianWorld算(suan)法模(mo)型旨在(zai)预(yu)测场景(jing)如何演变并预(yu)测当前(qian)的占用(yong)情况。
为了证明提出的(de)GaussianWorld算法(fa)模型(xing)的(de)有效(xiao)性,在nuScenes数据(ju)集上(shang)进行了大量实验。实验表明,GaussianWorld 可以(yi)有效(xiao)地预(yu)测(ce)场景演(yan)变(bian),并在不引入额(e)外计(ji)(ji)算的(de)情况下将单(dan)帧占用率预(yu)测(ce)提高 2% 以(yi)上(shang)(mIoU)。与现(xian)有方(fang)法(fa)相比,该模型(xing)在不引入额(e)外计(ji)(ji)算开销(xiao)的(de)前提下,展示了SOTA的(de)性能。

1月13日晚上7点,智猩猩邀请到论文一作、清华大学智能视觉实验室(IVG)博士生左思成参与「智猩猩新青年讲座自动驾驶专题」第42讲,主讲《基于高斯世界模型的流式3D占用预测》。
讲者
清华(hua)大学自动化系(xi)智(zhi)能(neng)视(shi)觉(jue)实验室(IVG)博士生,主要(yao)研究方向(xiang)是计算(suan)机视(shi)觉(jue)和自动驾驶(shi)。
第 42 讲
2、基于世界模型的感知任(ren)务范式(shi)
3、基于高斯(si)世界模型的流式OCC预(yu)测(ce)
4、在世界模型与端到端自动驾驶上(shang)的思(si)考
