基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

Mar, 2024

基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

Population-aware Online Mirror Descent for Mean-Field Games by Deep Reinforcement Learning

Zida Wu, Mathieu Lauriere, Samuel Jia Cong Chua, Matthieu Geist, Olivier Pietquin...

TL;DR我们提出了一种深度强化学习算法，通过设计额外的内循环重放缓冲区，代理可以有效地学习如何从任何分布实现纳什均衡，从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明，我们的算法具有比现有技术的算法更好的收敛性质，特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

Abstract

mean field games (mfgs) have the ability to handle large-scale multi-agent systems, but learning Nash equilibria in mfgs remains a challen

mean field games mfgs deep reinforcement learning nash equilibrium population-dependent policies

发现论文，激发创造

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

使用在线镜像下降方法扩展均值场博弈

本研究使用在线镜像下降法（OMD）解决均值场游戏（MFG）中均衡计算的扩展性问题，在一系列合理的单调性假设下，证明连续时间 OMD 可收敛于纳什均衡，这一理论结果良好地扩展至多人口游戏和涉及共同噪声的设置。经过全面的实验研究，OMD 优于传统算法，如虚拟游戏（FP），以前所未有的速度解决了数十亿个状态的 MFG 实例。这项研究在大规模多代理和多人口游戏的学习方面确立了最新的状态。

Feb, 2021

学习深度均场博弈以建模大规模人群行为

本文介绍了一种结合了均场博弈和马尔科夫决策过程的模型，该模型能够解决大规模群体行为的表示和分布预测问题。通过深度逆强化学习，模型可以从真实数据中学习到均场博弈中的奖励函数和前向动态，以推断大型实际系统的均场博弈模型。首次将均场博弈模型应用到社交媒体人口研究领域。

Nov, 2017

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024

基于图分块模型的图零游戏的强化学习方法与重采样

多人群平均场博弈模型的研究中，利用均场近似可以找到纳什均衡，在实际应用中，由于普适假设的限制，我们提出了一种基于图纹重抽样的学习框架，用于捕捉智能体连接的复杂网络结构，并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系，提出了一种高效的基于样本的多智能体强化学习算法，而无需进行群体操作，并对其收敛性进行了严格的有限样本保证分析。

Oct, 2023

均场博弈集群！以强化学习为方式

我们提出了一种方法，使大量智能体学习群集行为，我们将问题视为均值场博弈，并结合深度强化学习和标准化流的算法找到纳什均衡来适应所在群体的平均速度，我们将其应用于多组或高维群集，并在学习过程中增加了障碍。

May, 2021

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

May, 2024

通过学习主策略进行均场博弈中的泛化

利用机器学习中的泛化功能，我们研究如何学习政策，使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的 Master 策略，并且证明了单个 Master 策略提供了纳什均衡。我们的方法基于三个方面：将当前人口分布添加为观察的一部分，使用神经网络逼近 Master 策略，使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的 Master 策略的高效性以及其超越训练中使用的分布的推广能力。

Sep, 2021

关于均场博弈中的模仿问题

本文研究了均场博弈中的模仿学习问题，引入了 Nash 模仿差作为新的解决方案，研究发现在仅收益需求受到人口分布影响时，该问题等价于单智能体模仿学习，并给出了适用于整体系统动力学的新的上界限定。

Jun, 2023

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023