学习具有未知图内核的正则化图均场博弈

Oct, 2023

学习具有未知图内核的正则化图均场博弈

Learning Regularized Graphon Mean-Field Games with Unknown Graphons

Fengzhuo Zhang, Vincent Y. F. Tan, Zhaoran Wang, Zhuoran Yang

TL;DR我们设计和分析了一种用于图形平均场博弈算法（GMFGs）的强化学习算法。相较于以往需要准确的图形值的方法，我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡（NE）。我们的贡献有三个方面。首先，我们提出了用于 GMFG 的邻近策略优化（GMFG-PPO）算法，并证明在估计训练次数为 T 次之后以 $O (T^{-1/3})$ 的速率收敛，改进了 Xie 等人（ICML，2021）的之前研究。其次，利用分布的核嵌入，我们设计了高效的算法来估计从采样智能体获得的转移核、奖励函数和图形值。当智能体位置已知或未知时，推导了收敛速度。然后提供了 GMFG-PPO 优化算法和估计算法的组合结果。这些算法是专门用于从采样智能体中学习图形值的首个算法。最后，我们通过模拟验证了提出算法的有效性。这些模拟表明学习未知的图形值能够有效地减少可利用性。

Abstract

We design and analyze reinforcement learning algorithms for Graphon Mean-Field Games (GMFGs). In contrast to previous works that require the precise values of the graphons, we aim to learn the Nash Equilibrium (NE) of the regularized GMFGs when the graphons are unknown. Our contributio

reinforcement learning algorithms graphon mean-field games (gmfgs)nash equilibrium (ne)proximal policy optimization (ppo)kernel embedding of distributions

发现论文，激发创造

学习稀疏图形均场博弈

本文提出了一种名为 LPGMFGs 的图论概念 $L^p$ graphons 的解法，该方法可以有效而准确地解决大型多智能体强化学习问题，特别是那些包括幂律网络等能用标准图论难以描述的问题。

Sep, 2022

在稀疏图上学习均值场博弈：一种混合图 ex 方法

学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习（MARL）领域在解决这些系统上取得了重要进展，但对于许多代理人，解决方案通常在计算上不可行且缺乏理论保证。平均场博弈（MFG）解决了这两个问题，并可扩展为包括代理人之间网络结构的图形 MFG（GMFG）。尽管 GMFG 具有优点，但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性，例如幂律图，所以 GMFG 框架不足以捕捉这些网络拓扑。因此，我们引入了图形拓扑 MFG（GXMFG）的新概念，它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象，还具有其他有利特性，如小世界属性。由于底层图的丰富且稀疏结构，学习这些游戏的平衡是具有挑战性的。为了解决这些挑战，我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后，我们说明了我们的学习方法，并展示了它在合成图形和真实网络上的学习能力。这种比较表明，我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题，而这些问题现有的 MARL 和 MFG 方法无法准确解决。

Jan, 2024

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了 Nash 均衡。同时，通过实验证明，本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

学习图论均场博弈与近似纳什均衡

以非线性稠密图马尔可夫游戏为极限，提出了图分块场博弈的新离散时间公式，并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习，成功获得在众多玩家的场景中可行的近似纳什均衡。

Nov, 2021

基于图分块模型的图零游戏的强化学习方法与重采样

多人群平均场博弈模型的研究中，利用均场近似可以找到纳什均衡，在实际应用中，由于普适假设的限制，我们提出了一种基于图纹重抽样的学习框架，用于捕捉智能体连接的复杂网络结构，并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系，提出了一种高效的基于样本的多智能体强化学习算法，而无需进行群体操作，并对其收敛性进行了严格的有限样本保证分析。

Oct, 2023

通过带权重有向图的彩色有向图来研究均场博弈

介绍了一种基于有向带权图的多智体强化学习模型，可模拟金融市场中的系统性风险。

Sep, 2022

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

学习平均场博弈

该论文提出了一个通用平均场博弈（GMFG）框架，用于解决具有大量人口的随机博弈中的学习和决策问题。它提出了一种使用玻尔兹曼策略（GMF-Q）的 Q 学习算法，并进行了收敛性质和计算复杂度的分析。实验表明该 GMF-Q 算法在收敛性和学习精度方面高效稳健，比现有的多智能体强化学习算法具有更好的性能。

Jan, 2019

带有代表性玩家的图上平均场博弈：分析与学习算法

我们提出了一种在连续状态和动作空间上利用代表性玩家进行离散时间图博游戏的建模方法，用于研究具有异质相互作用的随机博弈。相比采用无穷多个玩家的广泛采用的建模方法，该建模方法具有哲学和数学优势。我们在温和的假设下证明了图博均衡的存在性和唯一性，并展示了该均衡可用于构造网络上有限玩家博弈的近似解，这在分析和求解中面临维数灾难的挑战。我们开发了一种在线无预言学习算法来数值求解均衡，并提供了其收敛的样本复杂度分析。

May, 2024

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024