Nov, 2023

遗憾匹配算法在博弈中的最后迭代收敛性质

TL;DR研究了基于遗憾匹配(RM+)及其变种的算法在求解大规模两人零和博弈中的最优策略时的迭代收敛性,并通过数值实验证明了部分实际变种算法在简单的3×3游戏中无法保证迭代收敛。进一步证明了基于平滑技术的最新变种算法,如extragradient RM+ 和 smooth Predictive RM+ 在最优策略上存在渐进收敛以及1/√t的最优策略收敛。最后,引入了重启变种算法,并证明它们在最优策略上可达到线性级别的收敛速度。