带熵正则化自然策略梯度和线性函数逼近的线性收敛

Jun, 2021

带熵正则化自然策略梯度和线性函数逼近的线性收敛

Linear Convergence of Entropy-Regularized Natural Policy Gradient with Linear Function Approximation

Semih Cayci, Niao He, R. Srikant

TL;DR论文分析了在函数逼近情况下，通过 softmax 参数化的熵正则化 NPG 方法，证明了该方法收敛速度为 O (1/T) 且表现出线性收敛特性，在正则化 MDP 中不需要对策略进行任何先验假设。

Abstract

natural policy gradient (NPG) methods with entropy regularization achieve impressive empirical success in reinforcement learning problems

natural policy gradient entropy regularization reinforcement learning linear function approximation convergence analysis

发现论文，激发创造

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

具有熵正则化的独立自然策略梯度在游戏中的线性收敛

这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法，通过引入熵正则化实现有界理性的决策，从而使智能体的行为接近纳什均衡，并通过实证结果验证了理论分析的可靠性。

May, 2024

自然策略梯度法在对数 - 线性策略下的线性收敛

本研究考虑了无限期折扣马尔可夫决策过程，并研究了自然策略梯度和 Q-NPG 方法在对数线性策略类下的收敛速度及样本复杂性，其在非自适应几何递增步长下可以实现线性收敛率和样本复杂度的约为 O (1/epsilon^2)。

Oct, 2022

自然策略梯度在无限状态平均奖励马尔可夫决策过程上的收敛性

该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度，如果采用良好的初始策略进行初始化，则收敛速度为 O (1/√T)。此外，针对大类排队马尔可夫决策过程，最大权重策略足以满足我们的初始策略要求并实现 O (1/√T) 的收敛速度。关键是根据 NPG 算法的迭代策略所达到的相对值函数，我们得出了这一结果。

Feb, 2024

均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性

本文研究了策略梯度在无限时间，连续状态和动作空间，及熵正则化的马尔可夫决策过程中的全局收敛性，并证明了在符合足够正则化的情况下，梯度流指数级收敛到唯一的稳态解。

Jan, 2022

NPG 在可数状态空间平均成本强化学习中的性能

本研究考虑了在强化学习环境中状态空间任意大、甚至可数无限的政策优化方法，重点是通信网络、匹配市场和其他排队系统的控制问题。我们研究了自然策略梯度 (Natural Policy Gradient, NPG) 在有限状态空间上的流行算法。在合理的假设下，我们得到了 NPG 的性能上界，该上界与状态空间的大小无关，只要策略评估误差在真实值函数的某个倍数内。我们通过建立关于 Poisson 方程解（即相对值函数）的新的与策略无关的界限，并将这些界限与先前已知的马尔可夫决策过程 (MDP) 和从专家学习的联系相结合，得到了这个结果。

May, 2024

马尔可夫势博弈的独立自然策略梯度的可证明快速收敛

该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题，证明了在引入次优间隙的情况下，使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在 Ε-Nash 均衡中达到 Ο(1/Ε) 次迭代，这比之前的结果 Ο(1/Ε^2) 次迭代要好，并且与单智能体的情况相同，其可达到 Ο(1/Ε) 次迭代的阶数。通过合成潜在博弈和拥塞博弈的实证结果来验证理论上的界限。

Oct, 2023

自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度

研究如何在满足预期总效用的约束条件下最大化预期总回报，提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程（constrained MDPs）的折扣无限时域下的最优控制问题，在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。

Jun, 2022

Softmax Policy Gradient 方法可能需要指数时间才能收敛

该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。

Feb, 2021

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024