ICLRMay, 2018

学习自我模仿多样化策略

TL;DR本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。