线性 - 二次均场强化学习：策略梯度方法的收敛性

Oct, 2019

线性 - 二次均场强化学习：策略梯度方法的收敛性

Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods

René Carmona, Mathieu Laurière, Zongjun Tan

TL;DR研究如何通过强化学习来解决机器人之间进行优化的问题，证明了基于策略梯度方法的算法在均值场问题中能够收敛。

Abstract

We investigate reinforcement learning for mean field control problems in discrete time, which can be viewed as markov decision processes f

reinforcement learning mean field control problems markov decision processes policy gradient methods robotics

发现论文，激发创造

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

均场多智能体强化学习

本文介绍了平均场强化学习方法，通过该方法可以近似处理不同智能体之间的互动，同时开发了多个实际的基于 Q-learning 和 Actor-Critic 的平均场算法模型，并分析了解决纳什均衡的收敛性，在高斯挤压、伊辛模型和博弈游戏等实验中验证了本方法的有效性。同时，作者报告了使用无模型的强化学习方法成功解决了伊辛模型问题。

Feb, 2018

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

Actor-Critic 在线性二次 Mean-Field Games 中能够证明地找到纳什均衡

针对具有无限个代理的离散时间平均场马尔科夫博弈，提出了一种基于模型无关增强学习和函数逼近的平场演员 - 评论家算法，该算法可以找到纳什均衡并具有全局收敛保证。

Oct, 2019

线性二次型调节器的策略梯度方法全局收敛

该研究桥接了基于模型和基于非模型策略梯度方法之间的差距，表明无模型的策略梯度方法全局收敛到最优解，并且在样本和计算复杂度方面效率很高。

Jan, 2018

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

稳定均场博弈的策略更新规则正则化

本文介绍一种名为 MF-PPO 的算法，它采用邻域策略梯度更新来调整变差的均值场博弈策略，从而提高非合作多智能体强化学习系统的稳定性和效率。

Apr, 2023

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019

有限时间内的带噪声线性二次调节器的策略梯度方法

本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法，并在两个例子中说明了该方法的性能。

Nov, 2020

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024