学习稀疏图形均场博弈
学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习(MARL)领域在解决这些系统上取得了重要进展,但对于许多代理人,解决方案通常在计算上不可行且缺乏理论保证。平均场博弈(MFG)解决了这两个问题,并可扩展为包括代理人之间网络结构的图形 MFG(GMFG)。尽管 GMFG 具有优点,但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性,例如幂律图,所以 GMFG 框架不足以捕捉这些网络拓扑。因此,我们引入了图形拓扑 MFG(GXMFG)的新概念,它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象,还具有其他有利特性,如小世界属性。由于底层图的丰富且稀疏结构,学习这些游戏的平衡是具有挑战性的。为了解决这些挑战,我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后,我们说明了我们的学习方法,并展示了它在合成图形和真实网络上的学习能力。这种比较表明,我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题,而这些问题现有的 MARL 和 MFG 方法无法准确解决。
Jan, 2024
我们设计和分析了一种用于图形平均场博弈算法(GMFGs)的强化学习算法。相较于以往需要准确的图形值的方法,我们旨在学习当图形值未知时的正则化 GMFGs 的纳什均衡(NE)。我们的贡献有三个方面。首先,我们提出了用于 GMFG 的邻近策略优化(GMFG-PPO)算法,并证明在估计训练次数为 T 次之后以 $O (T^{-1/3})$ 的速率收敛,改进了 Xie 等人(ICML,2021)的之前研究。其次,利用分布的核嵌入,我们设计了高效的算法来估计从采样智能体获得的转移核、奖励函数和图形值。当智能体位置已知或未知时,推导了收敛速度。然后提供了 GMFG-PPO 优化算法和估计算法的组合结果。这些算法是专门用于从采样智能体中学习图形值的首个算法。最后,我们通过模拟验证了提出算法的有效性。这些模拟表明学习未知的图形值能够有效地减少可利用性。
Oct, 2023
多人群平均场博弈模型的研究中,利用均场近似可以找到纳什均衡,在实际应用中,由于普适假设的限制,我们提出了一种基于图纹重抽样的学习框架,用于捕捉智能体连接的复杂网络结构,并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系,提出了一种高效的基于样本的多智能体强化学习算法,而无需进行群体操作,并对其收敛性进行了严格的有限样本保证分析。
Oct, 2023
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021
该论文提出了一个通用平均场博弈(GMFG)框架,用于解决具有大量人口的随机博弈中的学习和决策问题。它提出了一种使用玻尔兹曼策略(GMF-Q)的 Q 学习算法,并进行了收敛性质和计算复杂度的分析。实验表明该 GMF-Q 算法在收敛性和学习精度方面高效稳健,比现有的多智能体强化学习算法具有更好的性能。
Jan, 2019
本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法(Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attention),以更有效地捕获邻居智能体的特征信息,以选择更有效的行动,该算法在 MAgents 框架上的三个挑战任务中优于最先进的部分可观测平均场强化学习算法的基线。
Apr, 2023
本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架,通过对包括强化学习在内的算法进行探究,解决大规模人口随机博弈中的学习和决策问题,实现了 Nash 均衡。同时,通过实验证明,本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上,均表现出更高的效率和更好的性能。
Mar, 2020
使用超图的概念和均值场博弈理论,提出了一种建模大规模多智能体动力系统的方法,可以跨超过两个 Agent 进行交互,该方法被扩展到多层设置中,并被用于社交舆论和传染病控制问题的实证研究。
Mar, 2022