Jul, 2015

正则化学习在博弈中的快速收敛

TL;DR通过采用具有一种新颖形式的经验回忆的正则化学习算法,我们表明,在多人博弈的普通形式中,该类自适应算法能够实现更快的收敛速率,并实现对近似效率和粗略相关均衡的收敛,并且,对这种类型算法应用的每个玩家,他们的个体后悔降至$O(T^{-3/4})$,而其效用之和则以$O(T^{-1})$的速度趋于近似最优,在与该类算法相对应的算法维持更快的速率的同时,我们还表明了该类中的任何算法均可通过黑匣子降至$ ilde {O}(T^{-1/2})$的速率来抵抗对手。