通过熵正则化的深度强化学习近似求解均场博弈

Feb, 2021

通过熵正则化的深度强化学习近似求解均场博弈

Approximately Solving Mean Field Games via Entropy-Regularized Deep Reinforcement Learning

Kai Cui, Heinz Koeppl

TL;DR本文研究了离散时间有限 MFG 问题，通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。

Abstract

The recent mean field game (MFG) formalism facilitates otherwise intractable computation of approximate Nash equilibria in many-agent settings. In this paper, we consider discrete-time finite MFGs subject to finite-horizon objectives. We show that all discrete-time finite MFGs with non

mean field game nash equilibrium entropy-regularization boltzmann policies deep reinforcement learning

发现论文，激发创造

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

均场博弈中最大因果熵逆向强化学习

我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题，提出了最大因果熵逆强化学习问题，这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构，建立了一个梯度下降算法来计算最优解，并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡，并应用于数值示例。我们注意到，该算法也适用于一般的平均场均衡计算。

Jan, 2024

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

学习深度均场博弈以建模大规模人群行为

本文介绍了一种结合了均场博弈和马尔科夫决策过程的模型，该模型能够解决大规模群体行为的表示和分布预测问题。通过深度逆强化学习，模型可以从真实数据中学习到均场博弈中的奖励函数和前向动态，以推断大型实际系统的均场博弈模型。首次将均场博弈模型应用到社交媒体人口研究领域。

Nov, 2017

离散时间主次均值场博弈的学习

利用基于 M3FG（major-minor MFGs）的学习算法，我们提出了一种新的离散时间版本的 M3FG，能够解决具有强影响力的主要玩家的问题，并在三个实例问题中验证了该理论结果的实际效果，从而为一类广泛可解的博弈问题建立了学习框架。

Dec, 2023

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率，提出了基于 Optimistic Maximal Likelihood Estimation 的算法，并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时，该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。

May, 2023

通过学习主策略进行均场博弈中的泛化

利用机器学习中的泛化功能，我们研究如何学习政策，使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的 Master 策略，并且证明了单个 Master 策略提供了纳什均衡。我们的方法基于三个方面：将当前人口分布添加为观察的一部分，使用神经网络逼近 Master 策略，使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的 Master 策略的高效性以及其超越训练中使用的分布的推广能力。

Sep, 2021