FM3Q：分解的多智能体最小最大 Q 学习用于双队零和马尔科夫博弈

Feb, 2024

FM3Q：分解的多智能体最小最大 Q 学习用于双队零和马尔科夫博弈

FM3Q: Factorized Multi-Agent MiniMax Q-Learning for Two-Team Zero-Sum Markov Game

Guangzheng Hu, Yuanheng Zhu, Haoran Li, Dongbin Zhao

TL;DR我们提出了个体-全局-极小化（IGMM）原则，通过在2t0sMGs中的Q函数确保两队极小化行为与个体贪婪行为之间的一致性。基于此，我们提出了一种新的多智能体强化学习框架，分解多智能体极小化Q函数成个体的，并迭代求解2t0sMGs中满足IGMM条件的极小化Q函数。另外，我们提出了一种使用神经网络实现FM3Q和获得两队选手的确定性和分散极小化策略的在线学习算法，并提供了理论分析证明了FM3Q的收敛性。实验结果表明，我们使用三个环境来评估FM3Q的学习效率和最终性能，并展示了其在2t0sMGs上的优越性。

Abstract

Many real-world applications involve some agents that fall into two teams, with payoffs that are equal within the same team but of opposite sign across the opponent team. The so-called two-team zero-sum markov games (2t0sMGs) can be resolved with →

发现论文，激发创造

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

零和马尔可夫博弈的分散式 Q 学习

本研究在非协调控制下，针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态，该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点，并且可以有效应对非固定环境的挑战。

Jun, 2021

线性函数逼近下的近似极小极大离线强化学习：单智能体MDP和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性MDP算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体MDPs和MGs的第一个有效的极小极大最优算法。

May, 2022

零和马尔可夫博弈中政策优化的更快收敛

本文提出了一种基于OMWU方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Oct, 2022

GHQ：异构协作多智体强化学习中的分组混合Q学习

本研究实现了一个基于Starcraft多智能体协作异构场景的多智能体强化学习算法-Grouped Hybrid Q学习(GHQ)，通过最大化群组间的互信息来加强协调，并在原始和新的异构地图上进行实验以证明GHQ相对于其他最先进算法的卓越表现。

Mar, 2023

两人零和马尔可夫博弈的极小极大Q-学习的有限时间分析：切换系统方法

本文旨在研究应用于两人零和马尔科夫博弈中的Q-learning算法的有限时间分析。

Jun, 2023

QFree：多智能体强化学习的通用价值函数因子分解

我们提出了一种MARL的通用价值函数分解方法QFree，它基于优势函数开发了IGM原则的数学等价条件，并使用更具表达能力的混合网络结构来满足等价分解。通过在MARL算法的策略评估过程中将等价条件作为正则化项开发了一种新型损失函数。我们在非单调矩阵博弈场景和Starcraft Multi-Agent Challenge (SMAC)等复杂MARL基准环境中验证了该方法的有效性，并展示了其在性能方面达到了最新水平。

Nov, 2023

多智能体强化学习的可证明高效信息导向采样算法

该研究设计和分析了一组基于信息导向采样（IDS）原则的新型多智能体强化学习（MARL）算法，这些算法受到信息论基础概念的启发，在两人零和马尔可夫博弈和多人一般和博弈等MARL环境中被证明具有高样本效率。

Apr, 2024

两步极小极大 Q-learning 算法用于双人零和马尔可夫博弈

提出了一种有趣的迭代过程来解决两个玩家零和马尔可夫博弈，通过将问题表示为极小极大马尔可夫博弈，并对求解马尔可夫决策问题的两步Q学习算法进行适当修改，理论上获得了所提出迭代过程的有界性。利用随机逼近的结果，理论上获得了所提出的两步极小极大Q学习的几乎必然收敛性，具体而言，在模型信息未知的情况下，该算法以概率1收敛于博弈论最优值。数值模拟证实了所提出算法的有效性和易于实施性。

Jul, 2024