Feb, 2024

$\widetilde {O}(T^{-1})$ 在全信息 General-Sum Markov Games 中收敛到(粗糙)相关均衡

TL;DR使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于 O (T^-1) 粗糙相关均衡。