Oct, 2017
策略梯度估计的随机方差缩减
Stochastic Variance Reduction for Policy Gradient Estimation
Tianbing Xu, Qiang Liu, Jian Peng
TL;DR本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。