Jun, 2019

随机镜面下降的政策优化

TL;DRVRMPO 算法提出一种新颖的方差缩减的策略梯度估计器,使用随机镜像下降方法提高样本利用效率,并通过推导证明只需要 O(ϵ−3)个采样轨迹即可达到 ϵ- 近似一阶稳定点,从而超越了各个领域最先进的策略梯度算法。