AAAIJun, 2019

深度保守策略迭代

TL;DR本文研究了将经典的 Conservative Policy Iteration 算法应用于深度强化学习中的实际问题,并引入了自适应混合比率的概念,通过在 Cartpole 问题和 Atari 游戏中的实验验证了该算法的有效性和稳定性,表明重新审视经典的 Approximate Dynamic Programming 可能会导致改进和更稳定的深度强化学习算法。