Jun, 2024

LGR2:语言引导的奖励重新标记加速分层强化学习

TL;DR开发交互系统,利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2,这是一种新颖的层次强化学习框架,利用语言指令生成上层政策的稳定奖励函数,以解决非稳态问题,从而有效地利用语言指令解决机器人控制任务。通过实证分析,我们的方法在具有挑战性的稀疏奖励机器人导航和操作环境中获得了超过 70% 的成功率,并在真实世界的场景中展示了出色的泛化能力。