Nov, 2023

正则化学习下游戏中动态稳定性和战略稳定性的等效性

TL;DR通过研究正则化的无悔学习方法在有限游戏中的长期行为,我们发现玩家的实际策略如何随时间演变的理解非常有限,同时发现只有严格纳什均衡是稳定吸引的,进而揭示了玩家的日常对策的集合有理性的特性。我们进一步刻画了相应集合的稳定和收敛速率,并表明基于熵正则化的方法以几何速度收敛,而基于投影的方法在有限次迭代内收敛,即使是在带有被动反馈的并发奖励的情况下。