Jul, 2024

指数权重算法的游戏

TL;DR本研究研究了具有恒定学习率的指数权重算法的最后迭代收敛性质,通过在离散时间中考虑重复互动,每个参与者使用一个具有初始混合行动和固定学习率的指数权重算法,以使在时间t处开始播放的混合行动概率为$p^t$,遵循齐次马尔科夫链。首先,我们证明了在存在严格纳什均衡时,播放下一阶段的严格纳什均衡的概率几乎必定收敛于0或1。其次,我们证明了$p^t$的极限(如果存在)属于“具有均等化收益的纳什均衡集合”。第三,我们证明在强协调博弈中,其中玩家的收益在对角线上是正数,在其他地方为0,$p^t$几乎必定收敛于其中一个严格纳什均衡。最后,我们提出了一些开放性问题。