May, 2024

广义和谐史塔克伯格博弈中的去中心化在线学习

TL;DR我们研究了分布式和策略性在线学习问题,通过对不完全信息和附加信息两种不同情境进行研究,发现追随者在有限信息情境中按照局部最优策略响应领导者的行动,然而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号,以使得领导者的策略收敛到对自己更有利的均衡状态。基于这些洞察,我们针对这两种情境研究了分布式在线学习,主要贡献是提出了最后迭代收敛和样本复杂度方面的结果。尤其值得注意的是,我们设计了一种新的操控策略,用于处理附加信息情境,并证明它相对于最优应对策略具有内在优势。我们的理论结果也得到了实证结果的支持。