零和马尔可夫博弈中政策优化的更快收敛

Oct, 2022

零和马尔可夫博弈中政策优化的更快收敛

Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games

Shicong Cen, Yuejie Chi, Simon S. Du, Lin Xiao

TL;DR本文提出了一种基于OMWU方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Abstract

multi-agent reinforcement learning (MARL) -- where multiple agents learn to interact in a shared dynamic environment -- permeates across a wide range of critical applications. While there has been substantial progress on understanding the global →

发现论文，激发创造

具有非线性动力学的多智能体强化学习算法

使用加权策略学习器（Weighted Policy Learner）算法，基于本地奖励的反馈，实现了多智能体强化学习（MARL）算法在二人二选手博弈中寻找Nash Equilibrium的能力。与之前的算法相比，WPL不需要观察其他智能体动作和奖励，也不需要预先了解博弈本质和NE解，收敛表现优于现有的算法，并且在100个智能体交互中并行收敛。通过对WPL的动力学分析，可以更好地理解该算法的行为，分析WPL的收敛性比较困难，需要数值模拟求解动力学微分方程来验证其收敛性。

Jan, 2014

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

基于模型的多智能体强化学习在零和Markov博弈中的近似最优样本复杂度

本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度，通过两人零和马尔科夫博弈问题的研究发现，此种算法的样本复杂度为大 O （SA（1-γ）-3ε-2）,优于其他方法，但其依赖于动作空间大小，存在一定局限性。

Jul, 2020

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的Q-learning类型算法，该算法使用一系列经过熵正则化的软策略来近似Q函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的Q函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

竞争式强化学习的独立策略梯度方法

本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中，通过独立学习算法和政策梯度方法，证明了通过双时间尺度规则，两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式，协调过程的均衡计算上。

Jan, 2021

Exploiter的威力：在大状态空间下可证明的多智能体强化学习

本文提出了一个新算法，能够有效地应用于大量状态空间问题中的多智能体强化学习，以寻找具有低复杂度的多代理贝尔曼-伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。

Jun, 2021

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为O(1/epsilon^5)的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

零和马尔可夫博弈强化学习的一种新政策迭代算法

本文提出了一种对于零和马尔可夫游戏的学习策略——lookahead策略，该策略使用简单的naive policy iteration，在计划阶段实现高效的收敛，进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。

Mar, 2023

具有单一控制器的多人马尔可夫博弈中的乐观策略梯度：超越Minty属性的收敛

在这篇论文中，我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法，在单个控制器下收敛到稳定的ε-NE，其收敛速度为O(1/ε^2)次迭代，该框架基于对经典Minty性质的自然推广，我们相信它在Markov游戏之外也有进一步的应用。

Dec, 2023