学习平均场博弈
本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架,通过对包括强化学习在内的算法进行探究,解决大规模人口随机博弈中的学习和决策问题,实现了 Nash 均衡。同时,通过实验证明,本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上,均表现出更高的效率和更好的性能。
Mar, 2020
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022
本文研究了具有无限相互作用 agent(例如群体)的平均场多智能体系统,使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性,证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡,采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。
Jul, 2019
本研究提出了一种强化学习算法,通过调整两个学习参数的比例,同一算法可以学习解决无限时间视角的均值场游戏与控制问题,并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题,并使用线性二次问题得到显式解作为算法结果的基准。
Jun, 2020
本文提出了两种方法解决深度强化学习算法在非线性函数逼近下,无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的,并且这些方法的表现优于文献中的 SotA 基线。
Mar, 2022
使用在线样本,无需先验知识的状态 - 动作空间、奖励函数或转移动态,通过值函数 (Q) 更新策略,同时评估均场状态 (M),以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。
May, 2024
利用机器学习中的泛化功能,我们研究如何学习政策,使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的 Master 策略,并且证明了单个 Master 策略提供了纳什均衡。我们的方法基于三个方面:将当前人口分布添加为观察的一部分,使用神经网络逼近 Master 策略,使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的 Master 策略的高效性以及其超越训练中使用的分布的推广能力。
Sep, 2021
利用基于 M3FG(major-minor MFGs)的学习算法,我们提出了一种新的离散时间版本的 M3FG,能够解决具有强影响力的主要玩家的问题,并在三个实例问题中验证了该理论结果的实际效果,从而为一类广泛可解的博弈问题建立了学习框架。
Dec, 2023
本文研究了均场博弈中的模仿学习问题,引入了 Nash 模仿差作为新的解决方案,研究发现在仅收益需求受到人口分布影响时,该问题等价于单智能体模仿学习,并给出了适用于整体系统动力学的新的上界限定。
Jun, 2023
本文介绍了一种结合了均场博弈和马尔科夫决策过程的模型,该模型能够解决大规模群体行为的表示和分布预测问题。通过深度逆强化学习,模型可以从真实数据中学习到均场博弈中的奖励函数和前向动态,以推断大型实际系统的均场博弈模型。首次将均场博弈模型应用到社交媒体人口研究领域。
Nov, 2017