利用近似对称性实现高效的多智能体强化学习

Aug, 2024

利用近似对称性实现高效的多智能体强化学习

Exploiting Approximate Symmetry for Efficient Multi-Agent Reinforcement Learning

Batuhan Yardim, Niao He

TL;DR本研究解决了现有均值场博弈（MFG）在多智能体强化学习中面临的对称性假设限制问题，提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明，针对新提出的α,β-对称博弈，诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略，且在特定条件下，学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$，为多智能体系统的学习提供了新的理论支持和实践潜力。

Abstract

Mean-field games (MFG) have become significant tools for solving large-scale Multi-agent reinforcement learning problems under symmetry. However, the assumption of exact symmetry limits the applicability of MFGs,

发现论文，激发创造

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典MFG动力学假设情况下收敛于非平稳MFG平衡，采用深度RL算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限MFG问题，通过使用熵正则化和Boltzmann策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似Nash均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

何时才能高效学习具有多个玩家的广义和马尔可夫博弈？

本文探讨了多人博弈中学习的样本复杂性问题, 并设计算法在样本复杂度多项式级别下, 求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡, 同时提出了针对特定条件下的学习算法, 显著提高了现有算法的效率和精度。

Oct, 2021

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在Markov潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到epsilon-Nash平衡的迭代复杂度为O(1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为O(1/epsilon^5)的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

对称团队学习中，局部最优解是全局 Nash 均衡

对于对称策略空间中的本地最优对称策略，该研究证明任何局部最优对称策略都是（全局）纳什均衡，这个结果适用于机器学习，并为找到对称策略空间中的局部最优的梯度方法提供全局性保证，最后，总结了研究结果在多智能体RL，合作逆RL和分散式 POMDPs中的应用。

Jul, 2022

离散时间主次均值场博弈的学习

利用基于M3FG（major-minor MFGs）的学习算法，我们提出了一种新的离散时间版本的M3FG，能够解决具有强影响力的主要玩家的问题，并在三个实例问题中验证了该理论结果的实际效果，从而为一类广泛可解的博弈问题建立了学习框架。

Dec, 2023

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿-雅可比-艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML是第一个为大规模多代理随机对称博弈问题中计算近似Nash平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

May, 2024

马尔可夫潜在博弈的独立策略镜像下降：扩展到大数量玩家

本文解决了多智能体强化学习中马尔可夫潜在博弈（MPGs）的大规模学习问题，尤其是在相同利益设置下的纳什均衡学习。提出的独立策略镜像下降算法(PMD)通过KL正则化，实现了迭代复杂度对智能体数量的依赖降低到$\sqrt{N}$，显著优于以往研究，实现了在大规模智能体系统中的高效学习。

Aug, 2024

有限空间均值场型博弈的强化学习

本研究解决了均值场型博弈在计算方法上的不足，特别是在大规模背景下的有效性和可扩展性问题。作者提出了两种强化学习算法，其中一种基于均值场空间的量化和Nash Q学习，另一种是深度强化学习算法，能够适应更大的空间。实验结果表明所提方法在多个环境中具备良好的可扩展性和效率。

Sep, 2024