Aug, 2024
ReLExS:用于Stackelberg无悔学习者的强化学习解释
ReLExS: Reinforcement Learning Explanations for Stackelberg No-Regret
Learners
TL;DR本研究解决了在无悔追随者约束下,两人Stackelberg博弈中玩家能否达到Stackelberg均衡的问题。我们提出了当追随者策略为奖励平均或变换奖励平均时,两位玩家总能实现均衡,并进一步证明无悔约束下的均衡与追随者效用差异的严格上限。这表明在常和两人Stackelberg博弈中,保持无悔行动序列可以维持总最优效用的边界。