基于均场博弈的可伸缩深度强化学习算法

Mar, 2022

基于均场博弈的可伸缩深度强化学习算法

Scalable Deep Reinforcement Learning Algorithms for Mean Field Games

Mathieu Laurière, Sarah Perrin, Sertan Girgin, Paul Muller, Ayush Jain...

TL;DR本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Abstract

mean field games (MFGs) have been introduced to efficiently approximate games with very large populations of strategic agents. Recently, the question of learning equilibria in MFGs has gained momentum, particularly using model-free reinforcement learning (RL) methods. One limiting fact

mean field games model-free reinforcement learning neural networks mixed strategy online mirror descent

发现论文，激发创造

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

基于深度强化学习的面向人口的在线镜像下降法求解均场博弈

我们提出了一种深度强化学习算法，通过设计额外的内循环重放缓冲区，代理可以有效地学习如何从任何分布实现纳什均衡，从而在大规模多智能体系统中实现依赖于人口的纳什均衡。数值实验结果表明，我们的算法具有比现有技术的算法更好的收敛性质，特别是对于依赖于人口的策略的虚拟游戏的深度强化学习版本。

Mar, 2024

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限 MFG 问题，通过使用熵正则化和 Boltzmann 策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似 Nash 均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态 - 动作空间、奖励函数或转移动态，通过值函数 (Q) 更新策略，同时评估均场状态 (M)，以有效逼近固定点迭代 (FPI) 的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024

学习深度均场博弈以建模大规模人群行为

本文介绍了一种结合了均场博弈和马尔科夫决策过程的模型，该模型能够解决大规模群体行为的表示和分布预测问题。通过深度逆强化学习，模型可以从真实数据中学习到均场博弈中的奖励函数和前向动态，以推断大型实际系统的均场博弈模型。首次将均场博弈模型应用到社交媒体人口研究领域。

Nov, 2017

通过学习主策略进行均场博弈中的泛化

利用机器学习中的泛化功能，我们研究如何学习政策，使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的 Master 策略，并且证明了单个 Master 策略提供了纳什均衡。我们的方法基于三个方面：将当前人口分布添加为观察的一部分，使用神经网络逼近 Master 策略，使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的 Master 策略的高效性以及其超越训练中使用的分布的推广能力。

Sep, 2021

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game (GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了 Nash 均衡。同时，通过实验证明，本文提出的 GMF-V-Q 和 GMF-P-TRPO 两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

离散时间主次均值场博弈的学习

利用基于 M3FG（major-minor MFGs）的学习算法，我们提出了一种新的离散时间版本的 M3FG，能够解决具有强影响力的主要玩家的问题，并在三个实例问题中验证了该理论结果的实际效果，从而为一类广泛可解的博弈问题建立了学习框架。

Dec, 2023