超越稳态：随机 Softmax 策略梯度方法的收敛分析

Oct, 2023

超越稳态：随机 Softmax 策略梯度方法的收敛分析

Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods

Sara Klein, Simon Weissmann, Leif Döring

TL;DR这篇论文介绍了一种结合动态规划和策略梯度的方法，称为动态策略梯度，其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析，我们发现动态策略梯度训练更好地利用了有限时间问题的结构，这反映在改进的收敛界限上。

Abstract

markov decision processes (MDPs) are a formal framework for modeling and solving sequential decision-making problems. In finite-time horizons such problems are relevant for instance for optimal stopping or specif

markov decision processes sequential decision-making problems dynamic programming policy gradient convergence analysis

发现论文，激发创造

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

Softmax Policy Gradient 方法可能需要指数时间才能收敛

该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。

Feb, 2021

有限 MDP 的策略梯度方法线性收敛性

本文重新审视了策略梯度法在有限状态和动作 MDPs 中的有限时间分析，并基于与策略迭代的关系展示出许多策略梯度法变体使用大步长成功并达到线性收敛率。

Jul, 2020

全局收敛性：在平均奖励马尔可夫决策过程中的策略梯度

该研究报告首次提出了有限时间全局收敛分析方法，针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言，我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明，策略梯度迭代以 O (log (T)) 的子线性速率收敛到最优策略，并获得了 O (log (T)) 的后悔度保证，其中 T 表示迭代次数。我们的研究工作主要贡献在于证明了策略梯度算法对于平均奖励马尔可夫决策过程的收敛性，以及得到了有限时间的性能保证。与现有的折扣奖励性能界限不同，我们的性能界限明确依赖于捕捉底层马尔可夫决策过程复杂性的常数。在此基础上，我们重新审视和改进了折扣奖励马尔可夫决策过程的性能界限，并通过模拟评估了平均奖励策略梯度算法的性能。

Mar, 2024

马尔可夫潜势博弈中 Softmax 策略梯度的收敛性和劣质纳什均衡价格保证

本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性，在策略参数化方面，包括 tabular 和神经网络等。通过引入 POA 和平滑概念，给出了 POA 边界，并通过实验比较了不同方法的收敛速度和 POA。

Jun, 2022

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022

关于策略梯度方法的收敛速度

研究无限时间折扣马尔可夫决策问题，并以策略空间的直接参数化研究投影策略梯度方法和一般类别的策略镜像下降方法的收敛速度，包括不需要熵或其他强凸正则化的自然策略梯度方法及投影 Q - 下降方法，并分析近似策略镜像下降方法的收敛速度和样本复杂性估计。

Jan, 2022

单隐藏层神经网络在均场极限下 softmax 策略梯度的全局最优性

本文主要研究了在无限折扣马尔可夫决策过程下，采用 softmax 策略和非线性函数逼近结合策略梯度算法的策略优化问题。研究了广泛性的单隐藏层神经网络在探索过程中的行为，证明了其在参数空间中的分布也可以确定一阶 Wasserstein 梯度流，且当参数初始化满足一定条件时，其固定点为全局最优解。

Oct, 2020

自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度

研究如何在满足预期总效用的约束条件下最大化预期总回报，提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程（constrained MDPs）的折扣无限时域下的最优控制问题，在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。

Jun, 2022