破解多智体的诅咒：可证明的均值场增强学习中的均值嵌入 Q 迭代算法

ICMLJun, 2020

破解多智体的诅咒：可证明的均值场增强学习中的均值嵌入 Q 迭代算法

Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration for Mean-Field Reinforcement Learning

Lingxiao Wang, Zhuoran Yang, Zhaoran Wang

TL;DR本文研究多智能体协同学习中的代理对称性问题，提出基于平均场的分布式状态下的问题和解法，并针对提出的算法进行了非渐近分析，得出当观察代理数量增加时，算法性能将得到提高的结论。

Abstract

multi-agent reinforcement learning (MARL) achieves significant empirical successes. However, MARL suffers from the curse of many agents. In this paper, we exploit the →

multi-agent reinforcement learning symmetry mean-field algorithm many agents

发现论文，激发创造

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

基于图注意力的部分可观察性均值场多智能体强化学习

本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法（Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention），以更有效地捕获邻居智能体的特征信息，以选择更有效的行动，该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。

Apr, 2023

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

利用 Q-learning 的平均场控制协同多智体强化学习：收敛性和复杂度分析

该研究借助平均场控制方法，针对多智能体强化学习面临的高维诅咒问题，提出了一种基于无模型核心的 Q 学习算法。实验结果表明，本算法在大规模多智能体网络拥塞问题中，具有较好的解决性能。

Feb, 2020

均场多智体强化学习：一种分散网络方法

提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法，应用于自驾车、拼车、数据和交通路由模型的图网络，其解决了分散式多智能体强化学习网络结构的问题，并具有收敛保证的优势。

Aug, 2021

协作异构多智能体强化学习的均场控制近似

本论文介绍了平均场控制理论（Mean field control）在解决包含 $N_{pop}$ 个异构 agents 的协作多智能体强化学习问题中的应用，提出了三个不同的情况，分别考虑了错误率有不同的误差上限。最后，提出一个基于自然策略梯度 (Natural Policy Gradient) 的算法以收敛到 MARL 的最优策略。

Sep, 2021

有效多智能体 Q-Learning 的图探索

本文提出了一种基于图通信的多智能体强化学习探索技术，通过邻近智能体的协作来估计状态 - 动作空间的不确定性，从而在不需要计数机制且可以应用于连续状态环境的前提下执行更有效的探索行为，可以实现最小的信息交换和完全分散的通信方式，并用理论和实验结果分别验证了其在离散状态和连续状态下的性能。

Apr, 2023

通过函数逼近证明的高效去中心化多智能体强化学习

提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法，此算法总能输出马尔可夫序列最优解，并且实现了根据多样性相关均衡（CCE）找到Ɛ- 最优解的最优速率，同时，还提出了一种能够在多样性相关均衡（CCE）中找到策略类受限一致均衡的分布式算法。

Feb, 2023

具有状态不确定性的鲁棒多智能体强化学习

在多智能体强化学习中，本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题，提出鲁棒性的解决方案，并设计了两种算法，RMAQ 和 RMAAC，用于处理高维状态 - 动作空间，在存在状态不确定性下，实验证明这两种算法在多智能体环境中表现出色。

Jul, 2023

量子多智能体强化学习与自主移动协作

基于量子供应链，并结合多智能体强化学习和量子优势，提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法，并引入了投影值测量技术来进一步提高可伸缩性。

Aug, 2023