基于图分块模型的图零游戏的强化学习方法与重采样

Oct, 2023

基于图分块模型的图零游戏的强化学习方法与重采样

Reinforcement Learning for SBM Graphon Games with Re-Sampling

Peihan Huo, Oscar Peralta, Junyu Guo, Qiaomin Xie, Andreea Minca

TL;DR多人群平均场博弈模型的研究中，利用均场近似可以找到纳什均衡，在实际应用中，由于普适假设的限制，我们提出了一种基于图纹重抽样的学习框架，用于捕捉智能体连接的复杂网络结构，并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系，提出了一种高效的基于样本的多智能体强化学习算法，而无需进行群体操作，并对其收敛性进行了严格的有限样本保证分析。

Abstract

The mean-field approximation is a tractable approach for studying large population dynamics. However, its assumption on homogeneity and universal connections among all agents limits its applicability in many real-world scenarios. →

mean-field approximation multi-population mean-field game stochastic block model policy mirror ascent algorithm graphon game with re-sampling

发现论文，激发创造

基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

我们提出了一种深度强化学习算法，通过设计额外的内循环重放缓冲区，代理可以有效地学习如何从任何分布实现纳什均衡，从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明，我们的算法具有比现有技术的算法更好的收敛性质，特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

Mar, 2024

学习稀疏图形均场博弈

本文提出了一种名为 LPGMFGs 的图论概念 $L^p$ graphons 的解法，该方法可以有效而准确地解决大型多智能体强化学习问题，特别是那些包括幂律网络等能用标准图论难以描述的问题。

Sep, 2022

学习图论均场博弈与近似纳什均衡

以非线性稠密图马尔可夫游戏为极限，提出了图分块场博弈的新离散时间公式，并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习，成功获得在众多玩家的场景中可行的近似纳什均衡。

Nov, 2021

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了 Nash 均衡。同时，通过实验证明，本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

在稀疏图上学习均值场博弈：一种混合图 ex 方法

学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习（MARL）领域在解决这些系统上取得了重要进展，但对于许多代理人，解决方案通常在计算上不可行且缺乏理论保证。平均场博弈（MFG）解决了这两个问题，并可扩展为包括代理人之间网络结构的图形 MFG（GMFG）。尽管 GMFG 具有优点，但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性，例如幂律图，所以 GMFG 框架不足以捕捉这些网络拓扑。因此，我们引入了图形拓扑 MFG（GXMFG）的新概念，它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象，还具有其他有利特性，如小世界属性。由于底层图的丰富且稀疏结构，学习这些游戏的平衡是具有挑战性的。为了解决这些挑战，我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后，我们说明了我们的学习方法，并展示了它在合成图形和真实网络上的学习能力。这种比较表明，我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题，而这些问题现有的 MARL 和 MFG 方法无法准确解决。

Jan, 2024

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

通过带权重有向图的彩色有向图来研究均场博弈

介绍了一种基于有向带权图的多智体强化学习模型，可模拟金融市场中的系统性风险。

Sep, 2022

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022