May, 2023

单调博弈中学习的弹弓方法

TL;DR本文提出了一种新的针对噪声问题的计算均衡的框架,包含现有的付款规范算法,并具有最后迭代收敛性质。主要思想是扰动或规范化游戏的支付或效用。这种扰动可以将当前策略拉到固定点,称为滑轮策略。通过周期性更新滑轮策略,我们演示了最后迭代的收敛。最后,我们展示了基于此框架的算法在实证中具有更快的收敛。