Jan, 2024
自然策略梯度法结合基于Hessian辅助的动量方差减小的全局收敛性
Global Convergence of Natural Policy Gradient with Hessian-aided
Momentum Variance Reduction
TL;DR本文介绍了一种新的自然策略梯度变体NPG-HM,它利用Hessian辅助的动量技术用于方差减少,子问题则通过随机梯度下降方法求解。研究结果表明,NPG-HM在一般Fisher非退化策略参数化下,能够以样本复杂度O(ε^−2)达到全局最后迭代ε-最优性,并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外,基于Mujoco环境的数值实验结果显示NPG-HM在性能上优于其他最先进的策略梯度方法。