学习马尔可夫势博弈的参数封闭回路策略

ICLRFeb, 2018

学习马尔可夫势博弈的参数封闭回路策略

Learning Parametric Closed-Loop Policies for Markov Potential Games

Sergio Valcarcel Macua, Javier Zazo, Santiago Zazo

TL;DR针对共享公共资源时的多智能体系统，本文研究马尔可夫潜在博弈，提出了一种基于参数策略的闭环型纳什均衡解法，通过解一个单目标优化问题获得了一个最优策略，应用于实例中的无合作通信博弈，并通过深度强化学习算法学习了一个接近博弈精确变分均衡的策略。

Abstract

multiagent systems where agents interact among themselves and with a stochastic environment can be formalized as stochastic games. We study a subclass named markov potential games (MPGs) that appear often in econ

multiagent systems markov potential games optimal control problem closed-loop nash equilibrium deep reinforcement learning

发现论文，激发创造

马尔可夫潜在博弈中多智能体策略梯度的全局收敛

本研究提出了一种新的马尔可夫潜势博弈（MPG）的定义，用于捕捉复杂的多智能体协调。结果表明，独立策略梯度可以快速收敛到纳什均衡策略。

Jun, 2021

受限马尔可夫潜在博弈中的独立学习

本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法，利用近端点更新和正则化约束集来求解近似的约束纳什均衡，具备独立实现、分布式更新和收敛性保证的特点。

Feb, 2024

大规模马尔可夫潜在博弈的独立策略梯度：更快收敛速率，函数逼近和游戏无关收敛

本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质，提出新的独立策略梯度算法，证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2)，并在利用函数逼近的样本算法中，建立了样本复杂度为 O (1/epsilon^5) 的界限。同时，还找到了一类独立策略梯度算法，可在玩家对游戏类型无感知的情况下，实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。

Feb, 2022

独立自然策略梯度总是收敛于马尔科夫潜在博弈

本文研究了多智能体协作 / 竞争情景下的马尔科夫潜在博弈（Markov Potential Games，简称 MPGs），证明了独立自然策略梯度（Independent Natural Policy Gradient）在其内部一定会收敛，同时通过实验表明了自然策略梯度在路径游戏（routing games）和拥塞游戏（congestion games）中的优越性。

Oct, 2021

有限制马尔可夫潜在博弈中可证明学习纳什策略

本文提出了一种名为 CA-CMPG 的算法，它可以通过 Coordinate-Ascent 方式收敛到表格型、有限时间段的 CMPGs 的 Nash 策略，并提供了第一个适用于 CMPGs 的样本复杂度边界和安全探索的额外假设。

Jun, 2023

马尔可夫潜在博弈中的独立和去中心化学习

该论文提出了一种多智能体强化学习动态模型，分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行，重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。

May, 2022

马尔可夫潜势博弈中 Softmax 策略梯度的收敛性和劣质纳什均衡价格保证

本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性，在策略参数化方面，包括 tabular 和神经网络等。通过引入 POA 和平滑概念，给出了 POA 边界，并通过实验比较了不同方法的收敛速度和 POA。

Jun, 2022

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

基于 Lyapunov 的连续控制安全策略优化

本研究利用 Lyapunov 方法，构建了基于约束的马尔可夫决策过程（CMDP）模型，并使用深度确定性策略梯度（DDPG）或近端策略优化（PPO）等标准策略梯度方法进行训练，通过将策略参数或动作投影到由状态相关线性化 Lyapunov 约束引起的可行解集合上，以实现策略的近似约束满足，并且实现了较少保守的策略更新，针对数个模拟（MuJoCo）任务以及实际室内机器人导航问题的评估表明了我们算法的有效性，同时具有较高的数据利用效率。

Jan, 2019

具有共同噪声和开环控制的均场马尔可夫决策过程

在条件 McKean-Vlasov MDP 模型中，对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应，并且通过构建值函数所满足的动态规划 Bellman 定点方程，证明了存在最优的随机反馈控制。

Dec, 2019