ReLExS：用于Stackelberg无悔学习者的强化学习解释

Aug, 2024

ReLExS：用于Stackelberg无悔学习者的强化学习解释

ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret Learners

Xiangge Huang, Jingyuan Li, Jiaqing Xie

TL;DR本研究解决了在无悔追随者约束下，两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时，两位玩家总能实现均衡，并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中，保持无悔行动序列可以维持总最优效用的边界。

Abstract

With the constraint of a no regret follower, will the players in a two-player Stackelberg Game still reach Stackelberg Equilibrium? We first show when the follower strategy is either reward-average or transform-r