凹形效用强化学习：均场博弈的视角

Jun, 2021

凹形效用强化学习：均场博弈的视角

Concave Utility Reinforcement Learning: the Mean-Field Game Viewpoint

Matthieu Geist, Julien Pérolat, Mathieu Laurière, Romuald Elie, Sarah Perrin...

TL;DR本研究介绍了基于凹效用函数的强化学习模型 CURL，它扩展了线性到凹效用，同时将模仿学习和探索等领域纳入范畴。该模型违反经典 Bellman 方程，需要新算法。本文通过证明 CURL 是 MFG 的子类，将两个社区联系了起来，并通过实验表明，最近为 MFG 解决问题引入的算法可以更有效地解决 CURL 问题。

Abstract

concave utility reinforcement learning (CURL) extends RL from linear to concave utilities in the occupancy measure induced by the agent's policy. This encompasses not only RL but also imitation learning and exploration, among others. Yet, this more general paradigm invalidates the clas

concave utility reinforcement learning mean-field games optimality conditions nash equilibrium fictitious play

发现论文，激发创造

逆凹效用增强学习即逆博弈论

我们提出了新的逆反强化学习问题的理论框架，将 concave function 应用于 CURL，并创造性地将其等效于 mean-field games 的逆博弈理论问题，从而揭示了 CURL 问题与传统逆强化学习不同的特性和挑战。

May, 2024

MetaCURL: 非平稳凹效用强化学习

我们通过元算法和专家集成的方法在非平稳环境（变换的损失和概率转换）中探索在线学习在无环节马尔可夫决策过程中的应用，重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下，不需要先验的 MDP 更改知识，实现最优的动态遗憾，处理了全面对抗的损失而不仅仅是随机的。我们认为我们处理专家管理非平稳性的方法对强化学习社区具有一定的利益。

May, 2024

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

连续空间中的无限时间跨度均值场问题的深度强化学习

我们提出了一种强化学习算法，用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布，通过在线方式高效地更新，并通过迭代更新，收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈，并在渐进无限时域框架中使用线性二次基准函数进行性能评估。

Sep, 2023

合作竞争代理的独立强化学习：一种均值场视角

本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法，并通过均值场设定下的广义和型场博弈，证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题，并利用时间独立对角优势下的后向递归离散时间哈密顿 - 雅可比 - 艾萨克斯方程，进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。

Mar, 2024

学习平均场博弈：一项调查

该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题，并针对静态、平稳和演变三个最常见的情境，提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。

May, 2022

关于一般函数逼近的均场强化学习的统计效率

本篇研究探讨了 Reinforcement Learning 在 Mean-Field Control 和 Mean-Field Game 中的统计效率，提出了基于 Optimistic Maximal Likelihood Estimation 的算法，并通过建立新概念 Mean-Field Model-Based Eluder Dimension 来解决一系列问题。同时，该研究结果展示了单智能体 RL、MFC 和 MFG 在样本效率方面存在根本差异。

May, 2023

关于均场博弈中的模仿问题

本文研究了均场博弈中的模仿学习问题，引入了 Nash 模仿差作为新的解决方案，研究发现在仅收益需求受到人口分布影响时，该问题等价于单智能体模仿学习，并给出了适用于整体系统动力学的新的上界限定。

Jun, 2023

基于均场博弈的可伸缩深度强化学习算法

本文提出了两种方法解决深度强化学习算法在非线性函数逼近下，无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略，应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法，不需要记忆历史数据或先前的评估，可以扩展在线 Mirror Descent 算法。数值实验表明，这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的，并且这些方法的表现优于文献中的 SotA 基线。

Mar, 2022

关于均场博弈中无模型学习的收敛性问题

本文研究了具有无限相互作用 agent（例如群体）的平均场多智能体系统，使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性，证明了无模型学习算法在经典 MFG 动力学假设情况下收敛于非平稳 MFG 平衡，采用深度 RL 算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。

Jul, 2019