基于图分块模型的图零游戏的强化学习方法与重采样
我们提出了一种深度强化学习算法,通过设计额外的内循环重放缓冲区,代理可以有效地学习如何从任何分布实现纳什均衡,从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明,我们的算法具有比现有技术的算法更好的收敛性质,特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。
Mar, 2024
本文提出了一种名为 LPGMFGs 的图论概念 $L^p$ graphons 的解法,该方法可以有效而准确地解决大型多智能体强化学习问题,特别是那些包括幂律网络等能用标准图论难以描述的问题。
Sep, 2022
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021
本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架,通过对包括强化学习在内的算法进行探究,解决大规模人口随机博弈中的学习和决策问题,实现了 Nash 均衡。同时,通过实验证明,本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上,均表现出更高的效率和更好的性能。
Mar, 2020
使用在线样本,无需先验知识的状态 - 动作空间、奖励函数或转移动态,通过值函数 (Q) 更新策略,同时评估均场状态 (M),以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。
May, 2024
本文提出了两种方法解决深度强化学习算法在非线性函数逼近下,无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的,并且这些方法的表现优于文献中的 SotA 基线。
Mar, 2022
学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习(MARL)领域在解决这些系统上取得了重要进展,但对于许多代理人,解决方案通常在计算上不可行且缺乏理论保证。平均场博弈(MFG)解决了这两个问题,并可扩展为包括代理人之间网络结构的图形 MFG(GMFG)。尽管 GMFG 具有优点,但其在现实世界的适用性受限于图形只能捕捉到稠密图。因为大多数经验观察到的网络显示出一定程度的稀疏性,例如幂律图,所以 GMFG 框架不足以捕捉这些网络拓扑。因此,我们引入了图形拓扑 MFG(GXMFG)的新概念,它基于图形理论概念图形拓扑。图形拓扑是稀疏图序列的极限对象,还具有其他有利特性,如小世界属性。由于底层图的丰富且稀疏结构,学习这些游戏的平衡是具有挑战性的。为了解决这些挑战,我们设计了一种针对 GXMFG 设置的新学习算法。这种混合图形拓扑学习方法利用系统主要由高度连接的核心和稀疏的外围组成的特点。在定义系统并提供理论分析之后,我们说明了我们的学习方法,并展示了它在合成图形和真实网络上的学习能力。这种比较表明,我们的 GXMFG 学习算法成功地将 MFG 扩展到一类难度高且现实的学习问题,而这些问题现有的 MARL 和 MFG 方法无法准确解决。
Jan, 2024
本文研究了具有无限相互作用 agent(例如群体)的平均场多智能体系统,使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性,证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡,采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。
Jul, 2019
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022