Jul, 2017

事后经验回放

TL;DR本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取 - 放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。