ICLRSep, 2022

$O (T^{-1})$ 乐观正则化领导者策略在双人零和马尔科夫博弈中的收敛性

TL;DR证明了在 Markov 博弈中,基于乐观的 Follow-the-Regularized-Leader (OFTRL) 算法的平滑值更新,可在 T 次迭代中找到 $O (T^{-1})$ 的近似 Nash 均衡,该算法的关键改进是通过紧化 OFTRL 权重的代数不等式,使竞争者的遗憾之和大致是非负的,使得学习动态的二阶路径长度被限制,最终实现了 $O (T^{-1})$ 的收敛速率提高。