基于随机半梯度下降的平均场博弈学习与人口感知函数逼近

Aug, 2024

基于随机半梯度下降的平均场博弈学习与人口感知函数逼近

Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation

Chenyu Zhang, Xu Chen, Xuan Di

TL;DR本研究解决了传统平均场博弈学习方法在效率和稳定性方面的不足，提出了一种在线学习方法SemiSGD，能够实现代理同时更新策略与人口估计。该方法提供了新的视角，将价值函数和人口分布视为统一参数，并实现了在连续状态-动作空间上首个支持人口感知的线性函数逼近，具有有限时间收敛性和逼近误差分析。

Abstract

Mean Field Games (MFGs) model the interactions within a large-population multi-agent system using the population distribution. Traditional learning methods for MFGs are based on fixed-point iteration (FPI), which calculates best responses and induced population distribution separately

发现论文，激发创造

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典MFG动力学假设情况下收敛于非平稳MFG平衡，采用深度RL算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

学习均场博弈的通用框架

本文提出了一种基于 General Mean-Field Game(GMFG) 的研究框架，通过对包括强化学习在内的算法进行探究，解决大规模人口随机博弈中的学习和决策问题，实现了Nash均衡。同时，通过实验证明，本文提出的GMF-V-Q和GMF-P-TRPO两种算法在多智能体强化学习的收敛性、准确度和稳定性上，均表现出更高的效率和更好的性能。

Mar, 2020

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限MFG问题，通过使用熵正则化和Boltzmann策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似Nash均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

使用在线镜像下降方法扩展均值场博弈

本研究使用在线镜像下降法（OMD）解决均值场游戏（MFG）中均衡计算的扩展性问题，在一系列合理的单调性假设下，证明连续时间OMD可收敛于纳什均衡，这一理论结果良好地扩展至多人口游戏和涉及共同噪声的设置。经过全面的实验研究，OMD优于传统算法，如虚拟游戏（FP），以前所未有的速度解决了数十亿个状态的MFG实例。这项研究在大规模多代理和多人口游戏的学习方面确立了最新的状态。

Feb, 2021

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了Reinforcement Learning在Mean-Field Control和Mean-Field Game中的统计效率，提出了基于Optimistic Maximal Likelihood Estimation的算法，并通过建立新概念Mean-Field Model-Based Eluder Dimension来解决一系列问题。同时，该研究结果展示了单智能体RL、MFC和MFG在样本效率方面存在根本差异。

May, 2023

基于图分块模型的图零游戏的强化学习方法与重采样

多人群平均场博弈模型的研究中，利用均场近似可以找到纳什均衡，在实际应用中，由于普适假设的限制，我们提出了一种基于图纹重抽样的学习框架，用于捕捉智能体连接的复杂网络结构，并通过分析其动力学与多人群平均场博弈动力学之间的收敛关系，提出了一种高效的基于样本的多智能体强化学习算法，而无需进行群体操作，并对其收敛性进行了严格的有限样本保证分析。

Oct, 2023

离散时间主次均值场博弈的学习

利用基于M3FG（major-minor MFGs）的学习算法，我们提出了一种新的离散时间版本的M3FG，能够解决具有强影响力的主要玩家的问题，并在三个实例问题中验证了该理论结果的实际效果，从而为一类广泛可解的博弈问题建立了学习框架。

Dec, 2023

一个在线代理能够高效学习均场博弈

使用在线样本，无需先验知识的状态-动作空间、奖励函数或转移动态，通过值函数(Q)更新策略，同时评估均场状态(M)，以有效逼近固定点迭代(FPI)的两种变种的新型在线单智能体无模型学习方案的功效通过数值实验得到确认。

May, 2024