使用在线镜像下降方法扩展均值场博弈

Feb, 2021

使用在线镜像下降方法扩展均值场博弈

Scaling up Mean Field Games with Online Mirror Descent

Julien Perolat, Sarah Perrin, Romuald Elie, Mathieu Laurière, Georgios Piliouras...

TL;DR本研究使用在线镜像下降法（OMD）解决均值场游戏（MFG）中均衡计算的扩展性问题，在一系列合理的单调性假设下，证明连续时间 OMD 可收敛于纳什均衡，这一理论结果良好地扩展至多人口游戏和涉及共同噪声的设置。经过全面的实验研究，OMD 优于传统算法，如虚拟游戏（FP），以前所未有的速度解决了数十亿个状态的 MFG 实例。这项研究在大规模多代理和多人口游戏的学习方面确立了最新的状态。

Abstract

We address scaling up equilibrium computation in mean field games (MFGs) using online mirror descent (OMD). We show that continuous-time OMD provably converges to a →

mean field games online mirror descent nash equilibrium multi-population games fictitious play

发现论文，激发创造

基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

我们提出了一种深度强化学习算法，通过设计额外的内循环重放缓冲区，代理可以有效地学习如何从任何分布实现纳什均衡，从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明，我们的算法具有比现有技术的算法更好的收敛性质，特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

Mar, 2024

广义形式博弈中的本地化和自适应镜像下降

我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略，通过应用自适应在线镜像下降算法，在信息集中使用逐渐减小的学习率和正则化损失，我们证明了该方法在高概率下能够保证收敛速度为～T^(-1/2)，并且在理论上的最佳学习率和采样策略选择时，对于游戏参数的依赖性接近最优。为了实现这些结果，我们扩展了对 OMD 稳定性的概念，允许随时间变化的凸增量正则化。

Sep, 2023

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML 是第一个为大规模多代理随机对称博弈问题中计算近似 Nash 平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

May, 2024

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024

离散时间主次均值场博弈的学习

利用基于 M3FG（major-minor MFGs）的学习算法，我们提出了一种新的离散时间版本的 M3FG，能够解决具有强影响力的主要玩家的问题，并在三个实例问题中验证了该理论结果的实际效果，从而为一类广泛可解的博弈问题建立了学习框架。

Dec, 2023

关于零和博弈的收敛策略探讨

本文研究了学习动态的最后迭代收敛问题，并提供了新的结果和技术，其中包括一类游戏模型及其动态下的结果，以及通过遗憾分析得到的性质，证明了具有有界二阶路径长度，而且无论玩家使用不同算法和预测机制，也能实现 O（1 /sqrt（T））的速率和最优 O（1）的后悔界。同时证明了 OMD 要么接近纳什均衡，要么在效率上优于强韧价格，最后，对一般和连续的游戏模型也进行了探讨。

Mar, 2022

关于均场博弈中的模仿问题

本文研究了均场博弈中的模仿学习问题，引入了 Nash 模仿差作为新的解决方案，研究发现在仅收益需求受到人口分布影响时，该问题等价于单智能体模仿学习，并给出了适用于整体系统动力学的新的上界限定。

Jun, 2023

两种数值方法用于稳态场均值博弈

本文研究了两种解决平稳均场博弈的数值方法：基于变分特征的梯度流方法和利用单调性质的方法，并通过各种实例，包括一维周期性 MFG、拥堵问题和高维模型进行展示。

Nov, 2015

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限 MFG 问题，通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021