有限空间均值场型博弈的强化学习

Sep, 2024

有限空间均值场型博弈的强化学习

Reinforcement Learning for Finite Space Mean-Field Type Games

Kai Shao, Jiacheng Shen, Chijie An, Mathieu Laurière

TL;DR本研究解决了均值场型博弈在计算方法上的不足，特别是在大规模背景下的有效性和可扩展性问题。作者提出了两种强化学习算法，其中一种基于均值场空间的量化和Nash Q学习，另一种是深度强化学习算法，能够适应更大的空间。实验结果表明所提方法在多个环境中具备良好的可扩展性和效率。

Abstract

Mean field type games (MFTGs) describe Nash Equilibria between large coalitions: each coalition consists of a continuum of cooperative agents who maximize the average reward of their coalition while interacting non-cooperatively with a finite number of other coalitions. Although the th

发现论文，激发创造

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典MFG动力学假设情况下收敛于非平稳MFG平衡，采用深度RL算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

通过熵正则化的深度强化学习近似求解均场博弈

本文研究了离散时间有限MFG问题，通过使用熵正则化和Boltzmann策略使得固定点迭代收敛到近似固定点，同时提供了在高维场景下使用的近似Nash均衡算法以及结合虚拟博弈的深度强化学习方法。

Feb, 2021

学习图论均场博弈与近似纳什均衡

以非线性稠密图马尔可夫游戏为极限，提出了图分块场博弈的新离散时间公式，并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习，成功获得在众多玩家的场景中可行的近似纳什均衡。

Nov, 2021

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和Langevin动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿-雅可比-艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024

MF-OML: 大规模群体博弈中的在线均场强化学习与职业测量

MF-OML是第一个为大规模多代理随机对称博弈问题中计算近似Nash平衡提供证明的遗憾边界的完全多代理强化学习算法，通过计算累积偏差达到高概率遗憾边界，从而为单调均场博弈提供了可行的全局收敛的计算算法。

May, 2024

利用近似对称性实现高效的多智能体强化学习

本研究解决了现有均值场博弈（MFG）在多智能体强化学习中面临的对称性假设限制问题，提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明，针对新提出的α,β-对称博弈，诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略，且在特定条件下，学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$，为多智能体系统的学习提供了新的理论支持和实践潜力。

Aug, 2024