May, 2019

零和博弈中快速且强烈学习:在非消失步长时消失后悔

TL;DR我们展示了一种称为"Fast and Furious"的学习方法,使得在二人零和博弈中时间平均遗憾减少且步长不为零成为可能,此学习方法为最小化-最大化优化和多智能体系统中的研究提供了新的标杆,即使是在最简单的情况下,我们的研究证明该方法的遗憾界限为$\Theta(\sqrt{T})$,在学习率固定的情况下也会稳定收敛于确切的纳什均衡价值。