Oct, 2023

加速策略梯度法: 关于强化学习中的Nesterov动量

TL;DR加速策略梯度(APG)是一种基于Nesterov加速梯度方法的强化学习(RL)算法,通过形式化证明APG在真梯度下以接近1/t^2的速度收敛,首次给出了NAG在RL背景下的全局收敛率,数值验证显示APG相比标准策略梯度能显著改善收敛行为。