Jun, 2017
插值策略梯度:将在线策略和离线策略梯度估计相结合的深度强化学习方法
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient
Estimation for Deep Reinforcement Learning
TL;DR本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。