强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗？

Dec, 2021

强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗？

Can Reinforcement Learning Find Stackelberg-Nash Equilibria in General-Sum Markov Games with Myopic Followers?

Han Zhong, Zhuoran Yang, Zhaoran Wang, Michael I. Jordan

TL;DR研究了带有领导者和追随者的多人普遍和马尔可夫博弈，关注追随者为短视的情况，在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用，并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性，为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。

Abstract

We study multi-player general-sum markov games with one of the players designated as the leader and the other players regarded as followers. In particular, we focus on the class of games where the followers are m

发现论文，激发创造

斯塔克贝格博弈中的学习动态收敛

本文研究了斯塔克伯格博弈中学习动态的收敛性，并提出了一种基于梯度的学习更新规则，用于训练生成对抗网络。

Jun, 2019

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

随机斯塔克伯格安全博弈的无模型强化学习

本文提出了一种基于预期Sarsa的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。

May, 2020

一般和博弈中的斯塔克伯格均衡的高效学习

在嘈杂的赌徒反馈环境中，理论研究了 Stackelberg 均衡的样本有效学习，识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距，并建立了与其相匹配的下限。

Feb, 2021

何时才能高效学习具有多个玩家的广义和马尔可夫博弈？

本文探讨了多人博弈中学习的样本复杂性问题, 并设计算法在样本复杂度多项式级别下, 求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡, 同时提出了针对特定条件下的学习算法, 显著提高了现有算法的效率和精度。

Oct, 2021

去中心化一般和马尔可夫博弈中具有可证明效率的强化学习

本文提出了一种多智能体强化学习算法，可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略，并且算法是完全分散的，智能体只有本地信息，并不知道其他智能体的存在。

Oct, 2021

深度多智能体强化学习中的斯塔克伯格均衡：神谕和追随者

本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架，并借助多任务和元强化学习技术实现了一种使用情境策略的方法，在标准和新颖的基准领域上进行了实验，并显示出较以前的方法大大提高的样本效率。同时，我们探讨了超出我们框架边界的算法设计所带来的影响。

Oct, 2022

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023

斯塔克伯格批量策略学习

本研究提出了一种基于 Stackelberg 的学习算法，用于批量强化学习中的政策学习问题，通过采用领导者-追随者结构的博弈论视角，该算法具有收敛性保证和对不同iable Stackelberg均衡的收敛性保证，实验证明其在批处理强化学习基准和真实世界数据集上表现良好。

Sep, 2023

广义和谐史塔克伯格博弈中的去中心化在线学习

我们研究了分布式和策略性在线学习问题，通过对不完全信息和附加信息两种不同情境进行研究，发现追随者在有限信息情境中按照局部最优策略响应领导者的行动，然而在附加信息情境中，追随者可以通过策略性行动操控领导者的奖励信号，以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察，我们针对这两种情境研究了分布式在线学习，主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是，我们设计了一种新的操控策略，用于处理附加信息情境，并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。

May, 2024