大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

Feb, 2022

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

Independent Policy Gradient for Large-Scale Markov Potential Games: Sharper Rates, Function Approximation, and Game-Agnostic Convergence

HTML

PDF

Dongsheng Ding, Chen-Yu Wei, Kaiqing Zhang, Mihailo R. Jovanović

TL;DR本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为O(1/epsilon^5)的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Abstract

We examine global non-asymptotic convergence properties of policy gradient methods for multi-agent reinforcement learning (RL) problems in markov

发现论文，激发创造

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

竞争式强化学习的独立策略梯度方法

本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中，通过独立学习算法和政策梯度方法，证明了通过双时间尺度规则，两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式，协调过程的均衡计算上。

Jan, 2021

马尔可夫潜在博弈中多智能体策略梯度的全局收敛

本研究提出了一种新的马尔可夫潜势博弈（MPG）的定义，用于捕捉复杂的多智能体协调。结果表明，独立策略梯度可以快速收敛到纳什均衡策略。

Jun, 2021

独立自然策略梯度总是收敛于马尔科夫潜在博弈

本文研究了多智能体协作/竞争情景下的马尔科夫潜在博弈（Markov Potential Games，简称MPGs），证明了独立自然策略梯度（Independent Natural Policy Gradient）在其内部一定会收敛，同时通过实验表明了自然策略梯度在路径游戏（routing games）和拥塞游戏（congestion games）中的优越性。

Oct, 2021

在大状态空间中打破多智体的诅咒：独立线性函数逼近的马尔可夫博弈中的强化学习

我们提出了一种新模型独立线性马尔可夫游戏，用于具有大状态空间和大量代理的多代理强化学习，该模型具有独立线性函数逼近，并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡，其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展，从而打破了多代理的诅咒。

Feb, 2023

马尔可夫势博弈的独立自然策略梯度的可证明快速收敛

该研究使用独立自然策略梯度算法解决马尔科夫潜在博弈中的多智能体强化学习问题，证明了在引入次优间隙的情况下，使用具有提供精确策略评估的正交算子的独立自然策略梯度方法可以渐进地在Ε-Nash均衡中达到Ο(1/Ε)次迭代，这比之前的结果Ο(1/Ε^2)次迭代要好，并且与单智能体的情况相同，其可达到Ο(1/Ε)次迭代的阶数。通过合成潜在博弈和拥塞博弈的实证结果来验证理论上的界限。

Oct, 2023

具有单一控制器的多人马尔可夫博弈中的乐观策略梯度：超越Minty属性的收敛

在这篇论文中，我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法，在单个控制器下收敛到稳定的ε-NE，其收敛速度为O(1/ε^2)次迭代，该框架基于对经典Minty性质的自然推广，我们相信它在Markov游戏之外也有进一步的应用。

Dec, 2023

受限马尔可夫潜在博弈中的独立学习

本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法，利用近端点更新和正则化约束集来求解近似的约束纳什均衡，具备独立实现、分布式更新和收敛性保证的特点。

Feb, 2024

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024

马尔可夫潜在博弈的独立策略镜像下降：扩展到大数量玩家

本文解决了多智能体强化学习中马尔可夫潜在博弈（MPGs）的大规模学习问题，尤其是在相同利益设置下的纳什均衡学习。提出的独立策略镜像下降算法(PMD)通过KL正则化，实现了迭代复杂度对智能体数量的依赖降低到$\sqrt{N}$，显著优于以往研究，实现了在大规模智能体系统中的高效学习。

Aug, 2024