视(shi)觉(jue)(jue)导航(hang)(hang)是具身智(zhi)能(neng)体的(de)基础技能(neng),可以极大拓(tuo)宽(kuan)智(zhi)能(neng)体的(de)行动边界(jie)和任务(wu)(wu)边界(jie)。其(qi)中,基于(yu)开放域(yu)语言指令的(de)视(shi)觉(jue)(jue)语言导航(hang)(hang)是目(mu)前最(zui)具挑战及(ji)应用价值,也是最(zui)难以进(jin)行现实部署的(de)具身导航(hang)(hang)任务(wu)(wu)之一(yi)。
导(dao)航智能体(ti)需要理解从单个物体(ti)、到(dao)物体(ti)间(jian)关系、再到(dao)不同(tong)房(fang)间(jian)的(de)(de)空间(jian)布局(ju),并(bing)借由开(kai)放域(yu)指令进行导(dao)航规划。这要求环(huan)境表征能从不同(tong)粒度上(shang)与语言语义对齐;且在未知(zhi)场景的(de)(de)导(dao)航需要实时动态地更新环(huan)境表征,传统的(de)(de)基于(yu)低噪声点云的(de)(de)3D Visual Grounding等方法难以奏效,而(er)2D基础模型难以理解大范围的(de)(de)三(san)维环(huan)境布局(ju)。
为此,中(zhong)科院计算(suan)所和新(xin)加坡(po)国立大(da)学(xue)等研究(jiu)人(ren)员提出(chu)了基(ji)于网格记忆地图(tu)和三(san)维(wei)(wei)(wei)特(te)征(zheng)场等一系列方(fang)法,包括(kuo)动态构建地图(tu)表(biao)征(zheng)方(fang)法GridMM,基(ji)于特(te)征(zheng)场的(de)导航(hang)(hang)(hang)前瞻(zhan)探索(suo)策略HNR,高性能单目视(shi)觉语言导航(hang)(hang)(hang)Sim-to-Real方(fang)案以及(ji)三(san)维(wei)(wei)(wei)基(ji)础(chu)模型3D-Language特(te)征(zheng)场。通过这(zhei)些(xie)方(fang)法来解决视(shi)觉语言导航(hang)(hang)(hang)等具身(shen)任务(wu)中(zhong)的(de)三(san)维(wei)(wei)(wei)环(huan)境表(biao)征(zheng)和理解问题(ti)。
GridMM是动态构建与(yu)语(yu)言指令(ling)细(xi)粒度对齐的环境(jing)网(wang)格地图的方法。该(gai)方法通过映射智能体(ti)水平观(guan)察的细(xi)粒度视觉特征到俯(fu)视角网(wang)格地图,并(bing)在每个网(wang)格区域(yu)内与(yu)导(dao)航(hang)指令(ling)做语(yu)义关(guan)(guan)联聚合。与(yu)GridMM相关(guan)(guan)的论文(wen)成果收录(lu)于ICCV 2023,并(bing)成为CVPR 2023 Embodied AI 视觉语(yu)言导(dao)航(hang)RxR竞赛冠军方案。

通过(guo)GridMM能够实现网格记忆地图的动(dong)态(tai)增(zeng)长(zhang),并随(sui)导(dao)航(hang)过(guo)程(cheng)同步(bu)更新,以支持全局的导(dao)航(hang)规(gui)划。接着,相关团(tuan)队(dui)又(you)提(ti)出了第(di)一(yi)个可(ke)用于(yu)视觉语言导(dao)航(hang)的可(ke)泛化(hua)特征场HNR。与HNR相关的论文(wen)成果(guo)收(shou)录(lu)于(yu)CVPR 2024 Highlight。

HNR通过将智能体(ti)历(li)史观(guan)察的(de)(de)视(shi)觉特征映射进三(san)维(wei)空间,并利用体(ti)积(ji)渲(xuan)染(ran)来解码与CLIP语义空间对(dui)齐(qi)的(de)(de)新视(shi)角表征。HNR对(dui)若干可(ke)导(dao)(dao)航(hang)的(de)(de)候选点预测其周围的(de)(de)新视(shi)角表征,构(gou)建导(dao)(dao)航(hang)的(de)(de)未(wei)来路径树以支持其前瞻探索(suo)。这一策略大幅(fu)提(ti)升了智能体(ti)的(de)(de)导(dao)(dao)航(hang)规划(hua)表现(xian)。

如何(he)将仿真环(huan)(huan)境(jing)中的(de)训练成果(guo)迁移到真实(shi)(shi)环(huan)(huan)境(jing)也是(shi)具身导(dao)航(hang)领(ling)域一(yi)项重(zhong)要的(de)研究。不同于仿真环(huan)(huan)境(jing)中惯(guan)用(yong)的(de)全(quan)景RGB-D设置,现(xian)实(shi)(shi)环(huan)(huan)境(jing)中的(de)绝大多(duo)数机(ji)(ji)器(qi)(qi)人(ren)仅配备单(dan)目相机(ji)(ji),这极(ji)大限制了(le)视觉语言导(dao)航(hang)模(mo)(mo)型(xing)的(de)实(shi)(shi)机(ji)(ji)部署。因而VLN-3DFF提出使用(yong)3D特征场构(gou)建的(de)高(gao)性能单(dan)目视觉语言导(dao)航(hang)Sim-to-Real方案(an),赋予单(dan)目机(ji)(ji)器(qi)(qi)人(ren)全(quan)景感(gan)知能力,即用(yong)语义地图预测全(quan)景范围的(de)可(ke)导(dao)航(hang)候选点(dian)。该方案(an)将单(dan)目视觉语言导(dao)航(hang)模(mo)(mo)型(xing)的(de)最(zui)佳导(dao)航(hang)成功率提升了(le)6%以上(shang)。与VLN-3DFF相关的(de)论文成果(guo)收录于CoRL 2024。

此(ci)外(wai),先前的(de)可泛化特征(zheng)(zheng)场(chang)通常仅(jin)由2D基础模型(xing)进行(xing)语义对(dui)齐(qi),或仅(jin)使用(yong)有限的(de)物体(ti)类(lei)别标(biao)注做语义分割监督(du)。这极大(da)限制(zhi)了(le)特征(zheng)(zheng)场(chang)模型(xing)的(de)大(da)范围物体(ti)关系和空间布(bu)局理(li)(li)解。3D-LF是(shi)第一(yi)个通过(guo)大(da)规模3D-Language数据训练层次化特征(zheng)(zheng)场(chang)的(de)方法(fa),实现了(le)特征(zheng)(zheng)场(chang)模型(xing)从物体(ti)、关系、到环(huan)境(jing)布(bu)局的(de)多层级(ji)语义表征(zheng)(zheng)和理(li)(li)解。该方法(fa)能大(da)幅提升视觉语言导(dao)航和零样(yang)本物体(ti)导(dao)航等(deng)任务的(de)性能表现,验(yan)证了(le)3D语言特征(zheng)(zheng)场(chang)在具身任务的(de)应(ying)用(yong)价值。

11月21日晚7点,智(zhi)猩猩邀请到上述四(si)篇成果的(de)论文一作(zuo)、新加(jia)坡(po)国立大学计算机学院博士生王子涵参与(yu)「智(zhi)猩猩具身(shen)智(zhi)能前(qian)沿讲(jiang)座」第(di)15讲(jiang),以《具身(shen)导航中的(de)三维场景理(li)解》为主(zhu)题(ti)带(dai)来直播讲(jiang)解。
讲者
王子涵
新(xin)加坡国立大学计(ji)算机学院博士生(sheng)
新(xin)加坡国立大学(xue)计(ji)(ji)算机(ji)学(xue)院博士生,导师为Gim Hee Lee教授。硕士师从(cong)中科(ke)院计(ji)(ji)算所(suo)蒋树强研(yan)究员。研(yan)究领(ling)域为具(ju)身(shen)导航(hang)与用(yong)于具(ju)身(shen)智能的三维(wei)基础模型,相关(guan)研(yan)究发表于CVPR,ICCV,CoRL等计(ji)(ji)算机(ji)视(shi)觉与机(ji)器(qi)人顶会。曾(ceng)获CVPR 2023 Embodied AI 视(shi)觉语言导航(hang)RxR竞赛冠军。
第 15 讲
主 题
《具身(shen)导航中的(de)三维(wei)场景(jing)理(li)解》
提 纲
1、具身导航的核心难点与基础方法介绍
2、具身导航中的动态构建地图表征方法GridMM
3、基于特征场的导航前瞻探索策略HNR
4、视觉语言导航的Sim-to-Real部署
5、利用3D语言数据(ju)训(xun)练层次化特(te)征场提升机(ji)器人(ren)导航(hang)能(neng)力
直 播 信 息
直播时间:11月21日19:00
成果
论文成果1
标题:《GridMM: Grid Memory Map for Vision-and-Language Navigation》
链接://arxiv.org/abs/2307.12907
收(shou)录情(qing)况:ICCV 2023,CVPR 2023 Embodied AI 视觉语言导航RxR竞赛(sai)冠军方案(an)
论文成果2
标题(ti):《Lookahead Exploration with Neural Radiance Representation for Continuous Vision-Language Navigation》
链接://arxiv.org/abs/2307.12907
收录情况:CVPR 2024 Highlight
论文成果3
标题:《Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation》
链接(jie)://arxiv.org/abs/2406.09798
收录(lu)情(qing)况:CoRL 2024
论文成果4
标题:《Generalizable 3D-Language Feature Fields for Embodied Tasks》
如何报名
有讲座直播观看需求的朋友,可(ke)以添加小(xiao)助手“莓(mei)莓(mei)”进(jin)行(xing)报名。已添加过(guo)“莓(mei)莓(mei)”的老朋友,可(ke)以给(ji)“莓(mei)莓(mei)”私信(xin),发送“具身(shen)智能(neng)15”进(jin)行(xing)报名。对(dui)于(yu)通(tong)过(guo)报名的朋友,之后将邀请入群(qun)进(jin)行(xing)观看和(he)交流(liu)。
