改进的 (方差减少的) 策略梯度和自然策略梯度方法分析

MMNov, 2022

改进的 (方差减少的) 策略梯度和自然策略梯度方法分析

An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods

Yanli Liu, Kaiqing Zhang, Tamer Başar, Wotao Yin

TL;DR该论文重新审视和改进策略梯度方法、自然策略梯度方法及其方差减少版本在一般平滑策略参数化下的收敛性，尤其是通过正定的策略的 Fisher 信息阵表明了一种最先进的方差减少策略梯度方法在策略参数化方面仍然存在函数逼近误差，而自然策略梯度方法具有更低的样本复杂度。

Abstract

In this paper, we revisit and improve the convergence of policy gradient (PG), natural PG (NPG) methods, and their variance-reduced variants, under general smooth policy parametrizations. More specifically, with

policy gradient fisher information matrix variance-reduced sample complexity global convergence

发现论文，激发创造

自然策略梯度法结合基于 Hessian 辅助的动量方差减小的全局收敛性

本文介绍了一种新的自然策略梯度变体 NPG-HM，它利用 Hessian 辅助的动量技术用于方差减少，子问题则通过随机梯度下降方法求解。研究结果表明，NPG-HM 在一般 Fisher 非退化策略参数化下，能够以样本复杂度 O (ε^−2) 达到全局最后迭代 ε- 最优性，并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外，基于 Mujoco 环境的数值实验结果显示 NPG-HM 在性能上优于其他最先进的策略梯度方法。

Jan, 2024

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为 TSIVR-PG 的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对 TSIVR-PG 进行了理论分析。

Feb, 2021

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度

研究如何在满足预期总效用的约束条件下最大化预期总回报，提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程（constrained MDPs）的折扣无限时域下的最优控制问题，在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。

Jun, 2022

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

策略梯度方法的矩阵低秩近似

基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度，同时实现了类似的累积奖励。

May, 2024

普通策略梯度的一般样本复杂性分析

本文使用最近为非凸优化分析 SGD 开发的工具，获得了 vanilla policy gradient（PG）的收敛性和样本复杂性保证。

Jul, 2021