Oct, 2017

策略梯度估计的随机方差缩减

TL;DR本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。