深度多智能体强化学习中的斯塔克伯格均衡:神谕和追随者
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
本论文提出了一种新的方法来近似求解弱 Stackelberg 均衡,方法基于 Follower 策略空间的引导式 Monte Carlo 树搜索和 Leader 的行为策略树建立,并在用于三个不同拓扑结构的博弈测试中取得了优异的效果,较传统方法更具实用性和时间可扩展性。
Sep, 2019
该论文提出了一种基于 Stackelberg equilibrium 的、具有异步行动协调的 N 级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到 Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。
Apr, 2023
通过非耦合学习过程,本文提出一个新的学习规则,能够仅仅依靠每个玩家对其他玩家行为的观察,推动玩家向局部 Stackelberg 均衡演化,本规则对人工智能合作和多智能体强化学习具有潜在应用。
Feb, 2023
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
本文研究了扩展形式博弈中存在不确定性的 Stackelberg 均衡及其鲁棒性问题,分别引入了关于对手收益以及对手节点估值函数的不确定性条件,并提出了一种新的混合整数规划模型计算此类问题,证明可以在特定情况下准确可靠地计算出鲁棒 Stackelberg 均衡。
Nov, 2017