Softmax Policy Gradient 方法可能需要指数时间才能收敛

MMFeb, 2021

Softmax Policy Gradient 方法可能需要指数时间才能收敛

Softmax Policy Gradient Methods Can Take Exponential Time to Converge

Gen Li, Yuting Wei, Yuejie Chi, Yuxin Chen

TL;DR该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。

Abstract

The softmax policy gradient (PG) method, which performs gradient ascent under softmax policy parameterization, is arguably one of the de facto implementations of policy optimization in modern reinforcement learning

softmax policy gradient reinforcement learning markov decision process convergence rates update rules

发现论文，激发创造

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

基于动量的策略梯度算法的全局最优收敛性

本文研究应用动量项的随机策略梯度方法的全局收敛性，并展示了在 softmax 和非退化 Fisher 策略参数化中增加动量项可以提高 PG 方法的全局最优采样复杂度。此外，作者提供了分析随机 PG 方法全局收敛速率的通用框架。

Oct, 2021

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

我们考虑用于赌博机和表格马尔可夫决策过程（MDP）的（随机）softmax 策略梯度（PG）方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛，而不需要设置算法参数。为了解决这个问题，我们借鉴了优化文献的思路，在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。

May, 2024

马尔可夫潜势博弈中 Softmax 策略梯度的收敛性和劣质纳什均衡价格保证

本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性，在策略参数化方面，包括 tabular 和神经网络等。通过引入 POA 和平滑概念，给出了 POA 边界，并通过实验比较了不同方法的收敛速度和 POA。

Jun, 2022

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

超越稳态：随机 Softmax 策略梯度方法的收敛分析

这篇论文介绍了一种结合动态规划和策略梯度的方法，称为动态策略梯度，其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析，我们发现动态策略梯度训练更好地利用了有限时间问题的结构，这反映在改进的收敛界限上。

Oct, 2023

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

Softmax 策略梯度方法的全局收敛速度

研究了采用策略梯度法在表格设置下的优化问题，分析并证明了使用 softmax 参数化的策略梯度法具有 O (1/t) 的收敛速率，熵正则化策略梯度法可以以 O (e^{-c * t}) 的线性收敛速度收敛到最优策略，提高了优化速度。通过非均匀 L {} ojasiewicz 度概念解释了该方法的有效性，并在理论上支持了现有的经验研究。

May, 2020

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

普通策略梯度的一般样本复杂性分析

本文使用最近为非凸优化分析 SGD 开发的工具，获得了 vanilla policy gradient（PG）的收敛性和样本复杂性保证。

Jul, 2021