Actor-Critic 在线性二次 Mean-Field Games 中能够证明地找到纳什均衡

Oct, 2019

Actor-Critic 在线性二次 Mean-Field Games 中能够证明地找到纳什均衡

Actor-Critic Provably Finds Nash Equilibria of Linear-Quadratic Mean-Field Games

Zuyue Fu, Zhuoran Yang, Yongxin Chen, Zhaoran Wang

TL;DR针对具有无限个代理的离散时间平均场马尔科夫博弈，提出了一种基于模型无关增强学习和函数逼近的平场演员 - 评论家算法，该算法可以找到纳什均衡并具有全局收敛保证。

Abstract

We study discrete-time mean-field markov games with infinite numbers of agents where each agent aims to minimize its ergodic cost. We consider the setting where the agents have identical linear state transitions and quadratic cost functions, while the aggregated effect of the agents is

mean-field markov games nash equilibrium actor-critic algorithm reinforcement learning global convergence guarantees

发现论文，激发创造

折扣费用下的平均场博弈中的马尔可夫 - 纳什均衡

本文研究了具有有限数量 N 的动态博弈的均场类型，每个时刻，代理通过其状态的经验分布相互耦合，并介绍了 Markov-Nash 均衡的新解决方案，证明了均衡存在于无穷大人口极限 N-> ∞下。

Dec, 2016

线性 - 二次均场强化学习：策略梯度方法的收敛性

研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Oct, 2019

使用矩阵神经网络的均场控制的演员评价学习算法

我们开发了一种新的策略梯度和演员 - 评论家算法，用于解决在连续时间强化学习设置中的平均场控制问题。我们的方法利用了值函数的梯度表示，采用参数化的随机策略。演员（策略）和评论家（值函数）的学习通过在概率测度的 Wasserstein 空间上的一类动量神经网络函数实现，其中关键特点是直接采样分布的轨迹。本研究解决的一个核心挑战涉及平均场框架特定的计算处理。为了说明我们方法的有效性，我们提供了一组全面的数值结果，其中包括多维设置和具有可控波动性的非线性二次平均场控制问题。

Sep, 2023

带有均场交互的部分可观测随机博弈中的近似纳什均衡

本文研究含有无穷个代理人的部分可观测的均场动态博弈，使用故意使原本的部分可观测随机控制问题变成一个置信度空间上的完全可观测问题的技术，建立了此类游戏模型的纳什均衡存在性，并证明了当代理人足够多时，采用均场均衡策略会形成近似纳什均衡。

May, 2017

学习图论均场博弈与近似纳什均衡

以非线性稠密图马尔可夫游戏为极限，提出了图分块场博弈的新离散时间公式，并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习，成功获得在众多玩家的场景中可行的近似纳什均衡。

Nov, 2021

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

在大状态空间中打破多智体的诅咒：独立线性函数逼近的马尔可夫博弈中的强化学习

我们提出了一种新模型独立线性马尔可夫游戏，用于具有大状态空间和大量代理的多代理强化学习，该模型具有独立线性函数逼近，并为其设计了新算法以学习 Markov 粗糙关联均衡和 Markov 相关均衡，其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展，从而打破了多代理的诅咒。

Feb, 2023

虚构博弈 —— 均场博弈的连续时间分析与应用

本文分析了连续时间虚拟博弈学习算法在各种有限状态均场博弈设置（有限时间，折扣率 γ）中的应用，提供了一个新的学习动态来解决平均场博弈模型中存在共同噪声的最优解问题。

Jul, 2020

策略优化在零和线性二次博弈中可以证明收敛到纳什均衡

研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性，开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果，是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。

May, 2019