IJCAIJul, 2019

回顾性信任区域策略优化

TL;DR我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用 hindsight 来提高稀疏抽奖的表现,并引入了 QKL 和 HGF 两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了 HTRPO,包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明,QKL 和 HGF 对学习稳定性和高性能有很大贡献。比较结果表明,在所有任务中,HTRPO 始终优于 TRPO 和 HPG。