深度多智能体强化学习中的斯塔克伯格均衡：神谕和追随者

Oct, 2022

深度多智能体强化学习中的斯塔克伯格均衡：神谕和追随者

Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

Matthias Gerstgrasser, David C. Parkes

TL;DR本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架，并借助多任务和元强化学习技术实现了一种使用情境策略的方法，在标准和新颖的基准领域上进行了实验，并显示出较以前的方法大大提高的样本效率。同时，我们探讨了超出我们框架边界的算法设计所带来的影响。

Abstract

stackelberg equilibria arise naturally in a range of popular learning problems, such as in security games or automated mechanism design, and have received increasing attention in the reinforcement learning literature recently. We present a general framework for implementing

发现论文，激发创造

斯塔克贝格博弈中的学习动态收敛

本文研究了斯塔克伯格博弈中学习动态的收敛性，并提出了一种基于梯度的学习更新规则，用于训练生成对抗网络。

Jun, 2019

随机斯塔克伯格安全博弈的无模型强化学习

本文提出了一种基于预期Sarsa的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。

May, 2020

一般和博弈中的斯塔克伯格均衡的高效学习

在嘈杂的赌徒反馈环境中，理论研究了 Stackelberg 均衡的样本有效学习，识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距，并建立了与其相匹配的下限。

Feb, 2021

Exploiter的威力：在大状态空间下可证明的多智能体强化学习

本文提出了一个新算法，能够有效地应用于大量状态空间问题中的多智能体强化学习，以寻找具有低复杂度的多代理贝尔曼-伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。

Jun, 2021

强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗？

研究了带有领导者和追随者的多人普遍和马尔可夫博弈，关注追随者为短视的情况，在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用，并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性，为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。

Dec, 2021

无耦合学习承诺微分斯塔克尔贝格均衡

通过非耦合学习过程，本文提出一个新的学习规则，能够仅仅依靠每个玩家对其他玩家行为的观察，推动玩家向局部Stackelberg均衡演化，本规则对人工智能合作和多智能体强化学习具有潜在应用。

Feb, 2023

多智能体强化学习中通过时空顺序决策诱导斯塔克贝格均衡

该论文提出了一种基于Stackelberg equilibrium的、具有异步行动协调的N级政策模型，通过共享条件超网络，使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明，该模型在重复博弈场景中可以成功收敛到Stackelberg equilibrium，对于合作任务和混合任务的完成也表现非常出色。

Apr, 2023

竞争自学时学习新兴行为的Stackelberg博弈

使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法，优化自我进化过程中的智能体沟通模式，提高多智能体学习的有效性和鲁棒性。

May, 2023

斯塔克伯格批量策略学习

本研究提出了一种基于 Stackelberg 的学习算法，用于批量强化学习中的政策学习问题，通过采用领导者-追随者结构的博弈论视角，该算法具有收敛性保证和对不同iable Stackelberg均衡的收敛性保证，实验证明其在批处理强化学习基准和真实世界数据集上表现良好。

Sep, 2023

ReLExS：用于Stackelberg无悔学习者的强化学习解释

本研究解决了在无悔追随者约束下，两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时，两位玩家总能实现均衡，并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中，保持无悔行动序列可以维持总最优效用的边界。

Aug, 2024