高效的基于模型的多智能体平均场强化学习

Jul, 2021

高效的基于模型的多智能体平均场强化学习

Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning

Barna Pasztor, Ilija Bogunovic, Andreas Krause

TL;DR提出基于模型的强化学习算法 $ ext {M}^3 ext {-UCRL}$ 来解决具有未知系统动态的多智能体系统的协同最大化奖励问题，并且使用平均场类型分析获得针对 $ ext {MFC}$ 的前沿纠悔界，最终在控制具有无限智能体的群体运动问题上进行了实验。

Abstract

Learning in multi-agent systems is highly challenging due to the inherent complexity introduced by agents' interactions. We tackle systems with a huge population of interacting agents (e.g., swarms) via mean-field contr

multi-agent systems mean-field control model-based reinforcement learning swarm motion problem regret bounds

发现论文，激发创造

安全的基于模型的多智能体均场强化学习

本研究提出了 Safe-M3-UCRL 算法，使用平均场强化学习来为大量智能体寻找优化方法，并且可以在面临未知转换动态时实现建模优化问题，保证悲观约束条件的满足。在这个基础上，我们以共享代步交通问题为例进行了模拟评估，结果表明，该算法在保证服务可用性的同时，能够有效地维持区域内的供需平衡。

Jun, 2023

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率，提出了基于 Optimistic Maximal Likelihood Estimation 的算法，并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时，该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。

May, 2023

协作异构多智能体强化学习的均场控制近似

本论文介绍了平均场控制理论（Mean field control）在解决包含 $N_{pop}$ 个异构 agents 的协作多智能体强化学习问题中的应用，提出了三个不同的情况，分别考虑了错误率有不同的误差上限。最后，提出一个基于自然策略梯度 (Natural Policy Gradient) 的算法以收敛到 MARL 的最优策略。

Sep, 2021

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

存在不可分解的共享全局状态时的基于均场控制的多智能体强化学习近似

本文研究了在多智能体强化学习中，基于平均场控制的近似算法可以在存在全局状态的情况下进行有效求解，并提出了基于自然策略梯度算法可以在小样本情况下求解此问题，并得到了接近最优解的策略.

Jan, 2023

利用 Q-learning 的平均场控制协同多智体强化学习：收敛性和复杂度分析

该研究借助平均场控制方法，针对多智能体强化学习面临的高维诅咒问题，提出了一种基于无模型核心的 Q 学习算法。实验结果表明，本算法在大规模多智能体网络拥塞问题中，具有较好的解决性能。

Feb, 2020

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

学习分散的部分可观测均场控制以实现人工集体行为

该研究论文介绍了一种解决集体行为任务的多智能体增强学习算法，该算法使用平均场控制 (MFC)，并采用一种去中心化的、部分可观测的 MFC 模型。使用新的去中心化部分可观测 MFC (Dec-POMFC) 模型，该算法在代表性的集体行为任务上进行了数值评估，并提供了算法可行性和最优性保证。

Jul, 2023