「AI新青(qing)年讲(jiang)座(zuo)」将邀请世界顶(ding)尖AI研究机(ji)构和大学(xue)的(de)科研新青(qing)年,主讲(jiang)他(ta)们在(zai)计算机(ji)视觉、机(ji)器学(xue)习等人工智能(neng)领(ling)域(yu)的(de)最(zui)新重要研究成果。
AI新青年(nian)是加(jia)速人工(gong)智(zhi)能前(qian)沿(yan)研(yan)究的(de)(de)新生力量。AI新青年(nian)的(de)(de)视频讲解(jie)和直播答疑,将可以帮助大家(jia)增(zeng)进对人工(gong)智(zhi)能前(qian)沿(yan)研(yan)究的(de)(de)理解(jie),相应领域(yu)的(de)(de)专业知识(shi)也能够(gou)得以积累(lei)加(jia)深。同时(shi),通过(guo)与AI新青年(nian)的(de)(de)直接交流,大家(jia)在AI学习和应用AI的(de)(de)过(guo)程中(zhong)遇到的(de)(de)问题,也能够(gou)尽快解(jie)决。
「AI新(xin)青年讲(jiang)(jiang)座(zuo)」目(mu)前已完结(jie)210讲(jiang)(jiang),有兴(xing)趣(qu)分享学术成(cheng)果的(de)朋(peng)友(you),可以与(yu)智东(dong)西公开课教研团队进行邮件(class@k193.net)联系。
机(ji)器人的(de)(de)自主探索具有许(xu)多重要的(de)(de)应用。然(ran)而,基于信(xin)息增益(yi)或边界的(de)(de)经(jing)典探索方法(fa)仅依靠机(ji)器人的(de)(de)当前(qian)状(zhuang)态(tai)确(que)定即(ji)时的(de)(de)探索目标,缺乏预测未(wei)来状(zhuang)态(tai)价值的(de)(de)能(neng)力,从而导致探索决策(ce)效率低下。
最近(jin)几年随(sui)着离(li)线强(qiang)化(hua)学(xue)习(xi)算法的(de)兴起,相关(guan)算法也(ye)被应用(yong)(yong)在(zai)机(ji)器(qi)(qi)人控制,规划以及决策(ce)等领域(yu)(yu)。离(li)线强(qiang)化(hua)学(xue)习(xi)由于其(qi)安全(quan)性,数据(ju)可复(fu)用(yong)(yong)性,以及预训练(lian)的(de)便捷性,使得其(qi)在(zai)机(ji)器(qi)(qi)人领域(yu)(yu)拥(yong)有巨(ju)大前景。随(sui)着基础(chu)模型(xing)在(zai)视觉和语言领域(yu)(yu)的(de)成功,离(li)线强(qiang)化(hua)学(xue)习(xi)也(ye)成为机(ji)器(qi)(qi)人控制基础(chu)模型(xing)的(de)潜在(zai)解(jie)决方案(an)。
针对此类问题(ti),来(lai)自 CMU 机器人研(yan)究(jiu)所(suo)的在(zai)读(du)博士胡亚飞(fei)等人在(zai)提出的最(zui)新研(yan)究(jiu)工作 OPERE 中,使用离线预训练与在(zai)线自适应(ying)算(suan)法来(lai)学习(xi)状态(tai)价值函数,让(rang)机器人可以在(zai)稀疏的外在(zai)奖励下获得更多信(xin)息。
最(zui)终的结果(guo)也表(biao)明,OPERE 在(zai)(zai)复杂的场景中可以有效(xiao)提(ti)升(sheng)移动(dong)机器(qi)人自主探索的效(xiao)果(guo)。与(yu)其他最(zui)先(xian)进的 OPE 方法相(xiang)比,OPERE 算(suan)法实现了更好的预测性能。同时(shi),这也是首次在(zai)(zai)具有挑(tiao)战性的地下和(he)城市(shi)环境中的机器(qi)人探索的真实数(shu)据集上展示价(jia)值函数(shu)预测的工(gong)作(zuo)。
6月2日早10点,在「AI新青年讲座」第211中,CMU 机(ji)器人(ren)研究所在读(du)博士(shi)胡亚飞将(jiang)主讲《基于离线强化学习和在线自适应学习的(de)机(ji)器人(ren)自主探(tan)索》。
讲者
胡(hu)亚(ya)飞,CMU Robotics Institute在(zai)读博士;主要(yao)研究(jiu)方向(xiang)为机器人(ren)(ren)感知与决策,涉及(ji)深度强化学习,运动规划,机器人(ren)(ren)自主探索,视觉SLAM等问题。在(zai)计算机视觉和机器人(ren)(ren)领(ling)域顶会顶刊发(fa)表数(shu)篇论文,并担任审(shen)稿人(ren)(ren)。
第211讲
主 题
《基(ji)于离(li)线强化学(xue)习(xi)和在线自适(shi)应学(xue)习(xi)的机器人自主探索》
提 纲
1、离线强化学习在机器人领域应用
2、预训练模型对机器人技术的影响
3、探索机器人控制的基础模型
4、使用离线预训练与在线自适应学习的机器人探索方法OPERE
5、OPERE在(zai)复杂场景(jing)中的(de)真机测试
直 播 信 息
直播时间:6月2日10:00
直播(bo)地点(dian):智东(dong)西公开课(ke)知识店(dian)铺(pu)
成果
论文标题:《Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments》
论文地址://arxiv.org/abs/2204.03140
开源地址://github.com/JeffreyYH/opere