Feb, 2024

$\widetilde{O}(T^{-1})$ 在全信息General-Sum Markov Games中收敛到(粗糙)相关均衡

TL;DR使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。