学习图论均场博弈与近似纳什均衡
使用超图的概念和均值场博弈理论,提出了一种建模大规模多智能体动力系统的方法,可以跨超过两个 Agent 进行交互,该方法被扩展到多层设置中,并被用于社交舆论和传染病控制问题的实证研究。
Mar, 2022
我们提出了一种在连续状态和动作空间上利用代表性玩家进行离散时间图博游戏的建模方法,用于研究具有异质相互作用的随机博弈。相比采用无穷多个玩家的广泛采用的建模方法,该建模方法具有哲学和数学优势。我们在温和的假设下证明了图博均衡的存在性和唯一性,并展示了该均衡可用于构造网络上有限玩家博弈的近似解,这在分析和求解中面临维数灾难的挑战。我们开发了一种在线无预言学习算法来数值求解均衡,并提供了其收敛的样本复杂度分析。
May, 2024
本文考虑异质相互作用的扩散粒子系统及其大规模人口极限,其中交互是一种被底层图形表征的均值场类型,并以图上收敛。对于系统大小的增加以及底层图形的收敛,建立了大数定律的结果。极限由图上的均值场系统给出,包括独立但具有异质性的非线性扩散,其概率分布是完全耦合的。提供了这种系统的良好定义、连续性和稳定性。我们还考虑了一个不太密集的有限粒子系统的类比,通过消失率和适当的交互缩放得到。对于这些系统收敛到相应的图形上均值场系统,证明了大数定律的结果。
Mar, 2020
多人群平均场博弈模型的研究中,利用均场近似可以找到纳什均衡,在实际应用中,由于普适假设的限制,我们提出了一种基于图纹重抽样的学习框架,用于捕捉智能体连接的复杂网络结构,并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系,提出了一种高效的基于样本的多智能体强化学习算法,而无需进行群体操作,并对其收敛性进行了严格的有限样本保证分析。
Oct, 2023
本文提出了一种名为 LPGMFGs 的图论概念 $L^p$ graphons 的解法,该方法可以有效而准确地解决大型多智能体强化学习问题,特别是那些包括幂律网络等能用标准图论难以描述的问题。
Sep, 2022
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022
学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习(MARL)领域在解决这些系统上取得了重要进展,但对于许多代理人,解决方案通常在计算上不可行且缺乏理论保证。平均场博弈(MFG)解决了这两个问题,并可扩展为包括代理人之间网络结构的图形 MFG(GMFG)。尽管 GMFG 具有优点,但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性,例如幂律图,所以 GMFG 框架不足以捕捉这些网络拓扑。因此,我们引入了图形拓扑 MFG(GXMFG)的新概念,它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象,还具有其他有利特性,如小世界属性。由于底层图的丰富且稀疏结构,学习这些游戏的平衡是具有挑战性的。为了解决这些挑战,我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后,我们说明了我们的学习方法,并展示了它在合成图形和真实网络上的学习能力。这种比较表明,我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题,而这些问题现有的 MARL 和 MFG 方法无法准确解决。
Jan, 2024
针对具有无限个代理的离散时间平均场马尔科夫博弈,提出了一种基于模型无关增强学习和函数逼近的平场演员 - 评论家算法,该算法可以找到纳什均衡并具有全局收敛保证。
Oct, 2019
本文研究含有无穷个代理人的部分可观测的均场动态博弈,使用故意使原本的部分可观测随机控制问题变成一个置信度空间上的完全可观测问题的技术,建立了此类游戏模型的纳什均衡存在性,并证明了当代理人足够多时,采用均场均衡策略会形成近似纳什均衡。
May, 2017