Jun, 2017

插值策略梯度:将在线策略和离线策略梯度估计相结合的深度强化学习方法

TL;DR本文系统地研究了深度强化学习中混合使用on-policy和off-policy更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。