Jul, 2019
回顾性信任区域策略优化
Hindsight Trust Region Policy Optimization
TL;DR我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用hindsight来提高稀疏抽奖的表现,并引入了QKL和HGF两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了HTRPO,包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明,QKL和HGF对学习稳定性和高性能有很大贡献。比较结果表明,在所有任务中,HTRPO始终优于TRPO和HPG。