Nov, 2024
与自适应对手的马尔可夫博弈中的学习:策略后悔、基本障碍和高效算法
Learning in Markov Games with Adaptive Adversaries: Policy Regret,
Fundamental Barriers, and Efficient Algorithms
TL;DR本研究解决了在自适应对手下的马尔可夫博弈中学习的挑战,填补了现有研究对适应性对手的策略后悔关注不足的空白。提出了一种新的政策后悔概念,展示了在特定条件下(如记忆限制下的一致对手)可以实现高效学习。主要发现显示在这些条件下,算法能够在对手存在时有效降低策略后悔。