Sep, 2024
基于收益的独立学习在零和随机博弈中的最后迭代收敛性
Last-Iterate Convergence of Payoff-Based Independent Learning in
Zero-Sum Stochastic Games
TL;DR本研究解决了两玩家零和矩阵和随机博弈中的学习动力学问题,提出了一种基于收益的收敛性学习方法。该方法首次提供了具有最后迭代收敛保证的有限样本分析,发现矩阵博弈寻找纳什分布的样本复杂度为$O(\epsilon^{-1})$,而寻求纳什均衡的复杂度为$O(\epsilon^{-8})$。此工作为随机近似算法的收敛行为提供了新的视角。