让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体 LLaDA 能够利用 LLM 生成适应不同环境的驾驶策略和指令,为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导,帮助他们更轻松地在陌生的地方导航。此外,LLaDA 还能帮助自动驾驶汽车重新规划出与当地环境更加匹配的运动轨迹,调整自动驾驶汽车的运动规划策略。相关论文成果收录于 CVPR 2024 。

NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告

然而,LLaDA 无法实现场景(jing)的(de)自动识别,且对场景(jing)描(miao)述的(de)质量有着较(jiao)高要(yao)求(qiu)。尽管 GPT-4V 能(neng)够提(ti)供这种描(miao)述,但是(shi)却不够准(zhun)确。为此,NVIDIA Research 提(ti)出一个创新的(de)自动化视频(pin)字幕(mu)生成框架 Wolf。Wolf 采用(yong)专(zhuan)家混合方(fang)法,利用(yong)视觉语言模型(VLMs)的(de)互补(bu)优(you)势,能(neng)够提(ti)升自动驾(jia)驶(shi)智(zhi)能(neng)体的(de)场景(jing)理解能(neng)力。

NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告

此外,LLaDA 通常是与用户直接交互,并主要处理文本信息。相比之下,自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些差异,NVIDIA Research 团队专为自动驾驶领域设计出一种多模态大型语言模型(MM-LLM)TOKEN。TOKEN 通过将复杂的交通环境转化为对象级别的知识单元,增强了自动驾驶车辆在面对长尾事件时的规划能力。该模型还结合了端到端驾驶模型的优势,解决了数据稀缺和标记化效率低下的问题。相关论文收录于 CoRL 2024 。

NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告

在上述背景下,智猩猩与 NVIDIA 策划推出「智猩猩公开课 NVIDIA 自动驾驶智能体专场」,并将于10月22日以视频直播形式进行。公开课邀请到 LLaDA 论文第一作者NVIDIA Research 自动驾驶方向研究科学家李柏依进行主讲,主题为《探索基于多模态LLM 的自动驾驶智能体》。

李柏依博士首先会重点讲(jiang)解 LLaDA 如何(he)利用(yong) LLM 生(sheng)成适应(ying)不同环境的驾驶策(ce)略和指(zhi)令;之后(hou)会解读如何(he)使用(yong) Wolf 框(kuang)架(jia)生(sheng)成字幕(mu)提升智能(neng)(neng)体(ti)的场景理解能(neng)(neng)力。接下来,李柏依博士会讲(jiang)解如何(he)基于 TOKEN 分(fen)解复杂交(jiao)通场景提升智能(neng)(neng)体(ti)在(zai)(zai)长尾事件的规(gui)划能(neng)(neng)力,最后(hou)会分(fen)享在(zai)(zai)自动驾驶智能(neng)(neng)体(ti)上的未来研(yan)究方向,并进行展望。

NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告

公开课信息

 主 题 

探索基于多模态 LLM 的自动驾驶智能体

 提 纲

1、LLaDA 利用 LLM 生成适应不同环境的驾驶策略和指令
2、使用 Wolf 框架生成字幕提升智能体的场景理解能力
3、基于 TOKEN 分解复杂交通场景提升智能体在长尾事件的规划能力
4、未来(lai)研究(jiu)方(fang)向(xiang)与展望(wang)

主 讲 人

李柏(bo)依(yi),NVIDIA Research 自动(dong)驾(jia)驶方向(xiang)研究科(ke)学家

李(li)柏依是(shi) NVIDIA 自动(dong)驾驶汽车研究小组的一名研究科学(xue)家。博士毕(bi)业于康奈尔大(da)学(xue),师从(cong)Serge Belongie 教授 和 Kilian Q. Weinberger 教授。她对计算机(ji)视觉、机(ji)器(qi)学(xue)习和多媒体艺术(shu)感兴趣,研究重(zhong)点是(shi)多模态与数据高效(xiao)的机(ji)器(qi)学(xue)习。

 直 播 时 间

北京时(shi)间(jian)10月22日(ri)上午10点

报名方式

对此次公开课感兴趣的朋友,可以扫描下方二维码添加小助手小艾进行报名。已经添加小艾的老朋友,可以给小艾私信,发送“自动驾驶智能体”即(ji)可报名。我们会为报名成功的朋友推(tui)送直播链接。

同时,本次公开(kai)课(ke)也组建了(le)交(jiao)流群,直播开(kai)始(shi)前会(hui)邀请相关朋友入群交(jiao)流。

NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告