通过带权重有向图的彩色有向图来研究均场博弈
本文提出了一种名为 LPGMFGs 的图论概念 $L^p$ graphons 的解法,该方法可以有效而准确地解决大型多智能体强化学习问题,特别是那些包括幂律网络等能用标准图论难以描述的问题。
Sep, 2022
学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习(MARL)领域在解决这些系统上取得了重要进展,但对于许多代理人,解决方案通常在计算上不可行且缺乏理论保证。平均场博弈(MFG)解决了这两个问题,并可扩展为包括代理人之间网络结构的图形 MFG(GMFG)。尽管 GMFG 具有优点,但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性,例如幂律图,所以 GMFG 框架不足以捕捉这些网络拓扑。因此,我们引入了图形拓扑 MFG(GXMFG)的新概念,它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象,还具有其他有利特性,如小世界属性。由于底层图的丰富且稀疏结构,学习这些游戏的平衡是具有挑战性的。为了解决这些挑战,我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后,我们说明了我们的学习方法,并展示了它在合成图形和真实网络上的学习能力。这种比较表明,我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题,而这些问题现有的 MARL 和 MFG 方法无法准确解决。
Jan, 2024
本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法(Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention),以更有效地捕获邻居智能体的特征信息,以选择更有效的行动,该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。
Apr, 2023
利用基于 M3FG(major-minor MFGs)的学习算法,我们提出了一种新的离散时间版本的 M3FG,能够解决具有强影响力的主要玩家的问题,并在三个实例问题中验证了该理论结果的实际效果,从而为一类广泛可解的博弈问题建立了学习框架。
Dec, 2023
多人群平均场博弈模型的研究中,利用均场近似可以找到纳什均衡,在实际应用中,由于普适假设的限制,我们提出了一种基于图纹重抽样的学习框架,用于捕捉智能体连接的复杂网络结构,并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系,提出了一种高效的基于样本的多智能体强化学习算法,而无需进行群体操作,并对其收敛性进行了严格的有限样本保证分析。
Oct, 2023
使用超图的概念和均值场博弈理论,提出了一种建模大规模多智能体动力系统的方法,可以跨超过两个 Agent 进行交互,该方法被扩展到多层设置中,并被用于社交舆论和传染病控制问题的实证研究。
Mar, 2022
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021
本文介绍了一种结合了均场博弈和马尔科夫决策过程的模型,该模型能够解决大规模群体行为的表示和分布预测问题。通过深度逆强化学习,模型可以从真实数据中学习到均场博弈中的奖励函数和前向动态,以推断大型实际系统的均场博弈模型。首次将均场博弈模型应用到社交媒体人口研究领域。
Nov, 2017
我们设计和分析了一种用于图形平均场博弈算法(GMFGs)的强化学习算法。相较于以往需要准确的图形值的方法,我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡(NE)。我们的贡献有三个方面。首先,我们提出了用于 GMFG 的邻近策略优化(GMFG-PPO)算法,并证明在估计训练次数为 T 次之后以 $O (T^{-1/3})$ 的速率收敛,改进了 Xie 等人(ICML,2021)的之前研究。其次,利用分布的核嵌入,我们设计了高效的算法来估计从采样智能体获得的转移核、奖励函数和图形值。当智能体位置已知或未知时,推导了收敛速度。然后提供了 GMFG-PPO 优化算法和估计算法的组合结果。这些算法是专门用于从采样智能体中学习图形值的首个算法。最后,我们通过模拟验证了提出算法的有效性。这些模拟表明学习未知的图形值能够有效地减少可利用性。
Oct, 2023
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022