10月22日,由智猩猩联合 NVIDIA 策划推出的「智猩猩公开课 NVIDIA 自动驾驶智能体专场」顺利完结。NVIDIA Research 自动驾驶方向研究科学家李柏依以《探索基于多模态LLM 的自动驾驶智能体》为主题进行了(le)直播讲解(jie),共涉及 LLaDA、TOKEN 以及 Wolf 三篇(pian)论文成果。首先,李柏依博士通(tong)(tong)过视(shi)频(pin) demo 介(jie)绍了(le)自动(dong)驾(jia)驶智能体 LLaDA 如何(he)为驾(jia)驶员(yuan)(yuan)和自动(dong)驾(jia)驶汽车提供(gong)多语(yu)言(yan)和地区交通(tong)(tong)规则的实时指(zhi)导;之后通(tong)(tong)过对比GPT-Driver、人类驾(jia)驶员(yuan)(yuan)、LLaDA 的驾(jia)驶轨(gui)迹,分析了(le) LLaDA 如何(he)帮助自动(dong)驾(jia)驶汽车和人类驾(jia)驶员(yuan)(yuan)调整轨(gui)迹策略,使其可以在世界的任何(he)地方驾(jia)驶。
而在复(fu)杂交(jiao)通场景中(zhong),车(che)辆之间存在过多交(jiao)互,这会导致智(zhi)能体在预(yu)测时产生幻觉,从(cong)而影响其规(gui)(gui)划性能。为(wei)此,李(li)柏(bo)依博(bo)士详(xiang)解了如(ru)何基(ji)于 TOKEN 分解复(fu)杂交(jiao)通场景,进而提升(sheng)智(zhi)能体在长(zhang)尾事(shi)件的规(gui)(gui)划能力(li)。
最后,李柏依博士介绍了能够提升智能体场景理解能力的自动化视频字幕生成模型 Wolf,并对比分析了 Wolf 与 GPT-4V、CogAgent、VILA-1.5-13b 等其他模型。目前,此次公开课的课件 PPT 已上传至公众号【智猩猩】,大家可以在后台回复关键词“自动驾驶智能体”进行获取和学习。
完整回放
错过本(ben)次直(zhi)播的朋友(you),可以观(guan)看「智(zhi)猩猩公开(kai)课 NVIDIA 自(zi)动驾驶智(zhi)能体(ti)专(zhuan)场」完(wan)整回放。
//wqpoq.xetlk.com/sl/4p6Brv
精选PPT


相关资料
标题:《LLaDA: Driving Everywhere with Large Language Model Policy Adaptation》
链接:
//arxiv.org/abs/2402.05932
项目地址:
//boyiliee.github.io/llada/
NVIDIA博客:
//mp.weixin.qq.com/s/azJU4_OBzE_i8VvKnhDjww
标题:
《Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving》链接:
//arxiv.org/abs/2407.00959
标题:《Wolf: Captioning Everything with a World Summarization Framework》
//boyiliee.github.io/llada/
链接:
//arxiv.org/abs/2407.18908
项目地址:
//wolfv0.github.io/leaderboard.html