MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

May, 2024

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games

Anran Hu, Junzi Zhang

TL;DRMF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

Abstract

reinforcement learning for multi-agent games has attracted lots of attention recently. However, given the challenge of solving nash equilibria

reinforcement learning multi-agent games nash equilibria mf-oml mean-field approximation

发现论文，激发创造

基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

我们提出了一种深度强化学习算法，通过设计额外的内循环重放缓冲区，代理可以有效地学习如何从任何分布实现纳什均衡，从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明，我们的算法具有比现有技术的算法更好的收敛性质，特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

Mar, 2024

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024

使用在线镜像下降方法扩展均值场博弈

本研究使用在线镜像下降法（OMD）解决均值场游戏（MFG）中均衡计算的扩展性问题，在一系列合理的单调性假设下，证明连续时间 OMD 可收敛于纳什均衡，这一理论结果良好地扩展至多人口游戏和涉及共同噪声的设置。经过全面的实验研究，OMD 优于传统算法，如虚拟游戏（FP），以前所未有的速度解决了数十亿个状态的 MFG 实例。这项研究在大规模多代理和多人口游戏的学习方面确立了最新的状态。

Feb, 2021

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

学习图论均场博弈与近似纳什均衡

以非线性稠密图马尔可夫游戏为极限，提出了图分块场博弈的新离散时间公式，并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习，成功获得在众多玩家的场景中可行的近似纳什均衡。

Nov, 2021