Sep, 2023

广义形式博弈中的本地化和自适应镜像下降

TL;DR我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略,通过应用自适应在线镜像下降算法,在信息集中使用逐渐减小的学习率和正则化损失,我们证明了该方法在高概率下能够保证收敛速度为~T^(-1/2),并且在理论上的最佳学习率和采样策略选择时,对于游戏参数的依赖性接近最优。为了实现这些结果,我们扩展了对 OMD 稳定性的概念,允许随时间变化的凸增量正则化。