连续空间中的无限时间跨度均值场问题的深度强化学习

Sep, 2023

连续空间中的无限时间跨度均值场问题的深度强化学习

Deep Reinforcement Learning for Infinite Horizon Mean Field Problems in Continuous Spaces

Andrea Angiuli, Jean-Pierre Fouque, Ruimeng Hu, Alan Raydan

TL;DR我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Abstract

We present the development and analysis of a reinforcement learning (RL) algorithm designed to solve continuous-space mean field game (MFG) and mean field control (MFC) problems in a unified manner. The proposed

reinforcement learning continuous-space mean field game mean field control actor-critic paradigm langevin dynamics

发现论文，激发创造

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率，提出了基于 Optimistic Maximal Likelihood Estimation 的算法，并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时，该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。

May, 2023

用机器学习框架解决高维场均值博弈和场均值控制问题

本文提出了一种基于机器学习的灵活框架以数值解决潜在的平均场博弈和平均场控制问题，该框架避免使用空间离散化并利用拉格朗日和欧拉观点相结合的方法来近似解决高维问题。在标准工作站上近似解决了 100 维最优传输和人群运动问题，并在二维上进行了欧拉求解器的验证。这些结果为先前无法通过现有数值方法处理的 MFG 和 MFC 模型的应用开启了大门。

Dec, 2019

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限 MFG 问题，通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

高效的基于模型的多智能体平均场强化学习

提出基于模型的强化学习算法 $ ext {M}^3 ext {-UCRL}$ 来解决具有未知系统动态的多智能体系统的协同最大化奖励问题，并且使用平均场类型分析获得针对 $ ext {MFC}$ 的前沿纠悔界，最终在控制具有无限智能体的群体运动问题上进行了实验。

Jul, 2021

关于均场博弈中的模仿问题

本文研究了均场博弈中的模仿学习问题，引入了 Nash 模仿差作为新的解决方案，研究发现在仅收益需求受到人口分布影响时，该问题等价于单智能体模仿学习，并给出了适用于整体系统动力学的新的上界限定。

Jun, 2023