均场博弈中的学习:虚假博弈
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022
本文分析了连续时间虚拟博弈学习算法在各种有限状态均场博弈设置(有限时间,折扣率 γ)中的应用,提供了一个新的学习动态来解决平均场博弈模型中存在共同噪声的最优解问题。
Jul, 2020
本文研究了具有无限相互作用 agent(例如群体)的平均场多智能体系统,使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性,证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡,采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。
Jul, 2019
介绍了 J-M Lasry 和 P-L Lions 提出的描述随机微分博弈问题的极限行为的均场类型模型,作者在先前的作品中提出了这些模型的稳态和演化版本的近似方法,并在各种假设下证明了这些方法的收敛定理。
Jul, 2012
本文考虑具有离散状态空间(称为离散平均场博弈)的平均场博弈,并在有限和无限时间范围内分析这些博弈的连续和离散时间。我们证明了在成本和驱动连续的假设下存在均场平衡。此外,我们还研究了在四个环境中 N 人博弈的均衡趋于均值场均衡的情况。
Sep, 2019
本文研究了均场博弈中的模仿学习问题,引入了 Nash 模仿差作为新的解决方案,研究发现在仅收益需求受到人口分布影响时,该问题等价于单智能体模仿学习,并给出了适用于整体系统动力学的新的上界限定。
Jun, 2023
利用基于 M3FG(major-minor MFGs)的学习算法,我们提出了一种新的离散时间版本的 M3FG,能够解决具有强影响力的主要玩家的问题,并在三个实例问题中验证了该理论结果的实际效果,从而为一类广泛可解的博弈问题建立了学习框架。
Dec, 2023
该论文提出了一个通用平均场博弈(GMFG)框架,用于解决具有大量人口的随机博弈中的学习和决策问题。它提出了一种使用玻尔兹曼策略(GMF-Q)的 Q 学习算法,并进行了收敛性质和计算复杂度的分析。实验表明该 GMF-Q 算法在收敛性和学习精度方面高效稳健,比现有的多智能体强化学习算法具有更好的性能。
Jan, 2019
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021
使用在线样本,无需先验知识的状态 - 动作空间、奖励函数或转移动态,通过值函数 (Q) 更新策略,同时评估均场状态 (M),以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。
May, 2024