斯塔克贝格博弈中的学习动态收敛
本论文在两个代理竞争式强化学习环境 (即零和随机博弈) 中,通过独立学习算法和政策梯度方法,证明了通过双时间尺度规则,两个代理的策略将收敛于游戏的极小值-最大值均衡点。这是首个有限样本收敛结果的独立政策梯度方法在竞争 RL中的表现;先前的工作主要集中在集中式,协调过程的均衡计算上。
Jan, 2021
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得Stackelberg-Nash均衡(SNE)。它们可在大状态空间的函数逼近工具中简单应用,并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性,为解决追随者为短视的普遍和马尔可夫博弈的SNE建立了第一个可以被证明高效的强化学习算法。
Dec, 2021
研究使用无遗憾算法在正态形式重复的N人博弈中,如何让人类玩家获得最大化效用,引入Stackelberg均衡和相关Stackelberg均衡的概念,证明玩家能够在每个回合至少保证相关Stackelberg期望值的效用。
Feb, 2022
通过非耦合学习过程,本文提出一个新的学习规则,能够仅仅依靠每个玩家对其他玩家行为的观察,推动玩家向局部Stackelberg均衡演化,本规则对人工智能合作和多智能体强化学习具有潜在应用。
Feb, 2023
我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。
May, 2024
在广义随机博弈中,引入了Pareto最优概念作为可替代的平衡点,提出了基于最优反应的随机博弈的政策改进定理,并提出了一种迭代算法来确定Pareto最优策略,证明了该方法的单调改进性和收敛性,以及在特殊情况下收敛到平衡点的性质。
May, 2024
本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。
Aug, 2024
本研究解决了动态斯塔克尔博格博弈中跟随者最佳响应算子难以解析求解的问题。通过提出一种基于注意力的神经算子,本论文展示了跟随者的最佳响应可以在紧凑的领导者控制集合上进行近似实现,且采用该算子的博弈价值接近于原始博弈。这一结果为解决复杂博弈提供了新的智能方法。
Nov, 2024