针对均场博弈和控制问题的统一强化学习 Q-Learning

Jun, 2020

针对均场博弈和控制问题的统一强化学习 Q-Learning

Unified Reinforcement Q-Learning for Mean Field Game and Control Problems

Andrea Angiuli, Jean-Pierre Fouque, Mathieu Laurière

TL;DR本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Abstract

We present a reinforcement learning (RL) algorithm to solve infinite horizon asymptotic mean field game (MFG) and mean field control (MFC)

reinforcement learning mean field game mean field control model-free learning two-timescale learning

发现论文，激发创造

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率，提出了基于 Optimistic Maximal Likelihood Estimation 的算法，并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时，该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。

May, 2023

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

用机器学习框架解决高维场均值博弈和场均值控制问题

本文提出了一种基于机器学习的灵活框架以数值解决潜在的平均场博弈和平均场控制问题，该框架避免使用空间离散化并利用拉格朗日和欧拉观点相结合的方法来近似解决高维问题。在标准工作站上近似解决了 100 维最优传输和人群运动问题，并在二维上进行了欧拉求解器的验证。这些结果为先前无法通过现有数值方法处理的 MFG 和 MFC 模型的应用开启了大门。

Dec, 2019

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

利用 Q-learning 的平均场控制协同多智体强化学习：收敛性和复杂度分析

该研究借助平均场控制方法，针对多智能体强化学习面临的高维诅咒问题，提出了一种基于无模型核心的 Q 学习算法。实验结果表明，本算法在大规模多智能体网络拥塞问题中，具有较好的解决性能。

Feb, 2020

学习平均场博弈

该论文提出了一个通用平均场博弈（GMFG）框架，用于解决具有大量人口的随机博弈中的学习和决策问题。它提出了一种使用玻尔兹曼策略（GMF-Q）的 Q 学习算法，并进行了收敛性质和计算复杂度的分析。实验表明该 GMF-Q 算法在收敛性和学习精度方面高效稳健，比现有的多智能体强化学习算法具有更好的性能。

Jan, 2019

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了 Nash 均衡。同时，通过实验证明，本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

关于均场博弈中的模仿问题

本文研究了均场博弈中的模仿学习问题，引入了 Nash 模仿差作为新的解决方案，研究发现在仅收益需求受到人口分布影响时，该问题等价于单智能体模仿学习，并给出了适用于整体系统动力学的新的上界限定。

Jun, 2023