Sep, 2022

$O(T^{-1})$ 乐观正则化领导者策略在双人零和马尔科夫博弈中的收敛性

TL;DR证明了在Markov博弈中,基于乐观的Follow-the-Regularized-Leader (OFTRL)算法的平滑值更新,可在T次迭代中找到$O(T^{-1})$的近似Nash均衡,该算法的关键改进是通过紧化OFTRL权重的代数不等式,使竞争者的遗憾之和大致是非负的,使得学习动态的二阶路径长度被限制,最终实现了$O(T^{-1})$的收敛速率提高。