使用神经网络奖励函数的开放式强化学习
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016
本文提出了一种无需奖励函数却能学习有用技能的方法DIAYN(“多样性就是你所需的一切”),其通过最大化信息理论目标来实现技能的学习,在多项模拟机器人任务中取得了良好的表现,并且能够服务于其它强化学习相关的挑战。
Feb, 2018
本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。
Feb, 2019
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需1-4个小时与实际世界进行交互。
Apr, 2019
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
训练高维模拟智能体时,利用复杂的奖励函数鼓励自然策略,并配合基于参考动作捕获数据的对抗运动先验可以使产生的行为迁移到真实机器人上,从而得到能量有效的步态转移。
Mar, 2022
基于视频-语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中,通过在Open X-Embodiment数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明,相比先前使用二元分类训练的语言条件奖励模型,静态图像或不利用视频数据中的时间信息,我们的方法实现了更高效的训练。
May, 2024