通用和随机博弈纳什均衡学习的去中心化策略梯度

Oct, 2022

通用和随机博弈纳什均衡学习的去中心化策略梯度

Decentralized Policy Gradient for Nash Equilibria Learning of General-sum Stochastic Games

Yan Chen, Tao Li

TL;DR研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念，并提出了两种算法，一种是针对精确伪梯度的，另一种是针对未知伪梯度的。

Abstract

We study Nash equilibria learning of a general-sum stochastic game with an unknown transition probability density function. Agents take actions at the current environment state and their joint action influences the transition of the environment state and their immediate rewards. Each a

发现论文，激发创造

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的Q-learning类型算法，该算法使用一系列经过熵正则化的软策略来近似Q函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的Q函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

去中心化一般和马尔可夫博弈中具有可证明效率的强化学习

本文提出了一种多智能体强化学习算法，可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略，并且算法是完全分散的，智能体只有本地信息，并不知道其他智能体的存在。

Oct, 2021

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为O(1/epsilon^5)的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

在马尔科夫博弈中我们能以线性速率找到纳什均衡吗？

研究了两个玩家的零和博弈下去中心化学习问题，提出了一种名为Homotopy-PO的元算法，通过交替使用本地快速算法和全局缓慢算法，使得机器人之间的政策收敛到了较稳健的纳什均衡状态，同时深入分析了算法的收敛性和性能。

Mar, 2023

未知独立链$n$-人随机博弈中纳什均衡策略的可扩展与独立学习

在一种类别的随机博弈中，利用自治的镜面下降算法通过占用测量和置信区间技术提出了一种学习算法，以构建稳定的ε-NE策略集合，并证明了其多项式时间收敛性。

Dec, 2023

弱可达情况下的零和马尔可夫博弈纳什均衡学习

通过利用Tsallis熵正则化的值迭代方法，我们提出了一种合理且收敛的算法，在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡，仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对，从而明显减弱了过去的假设。我们的分析利用了负漂移不等式，并引入了Tsallis熵的新特性，这些特性具有独立的研究价值。

Dec, 2023

具有单一控制器的多人马尔可夫博弈中的乐观策略梯度：超越Minty属性的收敛

在这篇论文中，我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法，在单个控制器下收敛到稳定的ε-NE，其收敛速度为O(1/ε^2)次迭代，该框架基于对经典Minty性质的自然推广，我们相信它在Markov游戏之外也有进一步的应用。

Dec, 2023

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024

一般和博弈中的去中心化学习

本研究针对在动态和不确定的社会系统中，多代理间异质效用交互的去中心化学习算法设计与分析存在的空白，提出一种基于马尔可夫近势函数（MNPF）的新方法，以保证算法能够收敛到近似纳什均衡。研究表明，该方法能有效应对多代理系统中的学习收敛问题，并提供新的视角来分析去中心化算法的设计。

Sep, 2024