时间输入对于3D占用预测非常重要,而现有方法大多遵循传统的感知、转换和融合流程。即给定顺序输入信息,感知模块独立获得每个帧的场景表示,例如BEV特征以(yi)及体素特征;并且转换模(mo)块(kuai)根据(ju)自车(che)轨迹对齐(qi)多帧的时序特征信息,融合(he)模(mo)块(kuai)融合(he)对齐(qi)的特征表示以(yi)推断当(dang)前的3D占(zhan)用情况(kuang)。这(zhei)些(xie)方法(fa)未能考虑驾驶场景演变的固有连续性和简单性。

为此,清华大学自动化系提出一个基于高斯世界模型的流式三维语义占用预测模型GaussianWorld,现已开源。与GaussianWorld相关的论文成果已投稿CVPR 2025,清华大学自动化系智能视觉实验室(IVG)博(bo)士生左思成为论(lun)文一(yi)作(zuo)。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告

GaussianWorld采用显式3D高斯作为场景表示,而不是传统的隐式 BEV/Voxel 表示,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前(qian)视觉输入,GaussianWorld算(suan)法模(mo)型旨在(zai)预(yu)测场景(jing)如何演变并预(yu)测当前(qian)的占用(yong)情况。

为了证明提出的(de)GaussianWorld算法(fa)模型(xing)的(de)有效(xiao)性,在nuScenes数据(ju)集上(shang)进行了大量实验。实验表明,GaussianWorld 可以(yi)有效(xiao)地预(yu)测(ce)场景演(yan)变(bian),并在不引入额(e)外计(ji)(ji)算的(de)情况下将单(dan)帧占用率预(yu)测(ce)提高 2% 以(yi)上(shang)(mIoU)。与现(xian)有方(fang)法(fa)相比,该模型(xing)在不引入额(e)外计(ji)(ji)算开销(xiao)的(de)前提下,展示了SOTA的(de)性能。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告

1月13日晚上7点,智猩猩邀请到论文一作、清华大学智能视觉实验室(IVG)博士生左思成参与「智猩猩新青年讲座自动驾驶专题」第42讲,主讲《基于高斯世界模型的流式3D占用预测》。

讲者

左思成,清华大学智能视觉实验室(IVG)博士生

清华(hua)大学自动化系(xi)智(zhi)能(neng)视(shi)觉(jue)实验室(IVG)博士生,主要(yao)研究方向(xiang)是计算(suan)机视(shi)觉(jue)和自动驾驶(shi)。

第 42 讲

 主 题 

《基于(yu)高斯世界模型的流式3D占(zhan)用预测(ce)》

 提 纲 

1、自动驾驶(shi)中的时(shi)序建模方(fang)法

2、基于世界模型的感知任(ren)务范式(shi)

3、基于高斯(si)世界模型的流式OCC预(yu)测(ce)

4、在世界模型与端到端自动驾驶上(shang)的思(si)考

直 播 信 息 

直(zhi)播时间:1月13日19:00

成果

论文标题

《GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction》

论文链接

//arxiv.org/abs/2412.10373

论文链接

//github.com/zuosc19/GaussianWorld

如何报名

有讲座直播观看需求的朋友,可以添加小助手“陈新”进行报名。已添加过“陈新”的老朋友,可以给“陈新”私信,发送“自动驾驶42”进行报名(ming)。对于通过(guo)报名(ming)的朋友,之后将邀请(qing)入(ru)群进行观看和交流。

清华开源GaussianWorld:基于高斯世界模型的3D占用预测模型 | 一作左思成博士主讲预告