广义和马尔可夫博弈中相关均衡的近最优策略优化

Jan, 2024

广义和马尔可夫博弈中相关均衡的近最优策略优化

Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games

Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

TL;DR我们研究了多人广义和Markov游戏中计算相关均衡的政策优化算法，以往结果在收敛速率上达到了$O(T^{-1/2})$的相关均衡和$O(T^{-3/4})$的粗糙相关均衡的加速收敛速率，本文提出了一种通过组合平滑值更新和乐观正则化领导者算法与对数障碍正则器的两个主要因素构建的解耦政策优化算法，达到了计算相关均衡的几乎最优$ ilde{O}(T^{-1})$的收敛速率。

Abstract

We study policy optimization algorithms for computing correlated equilibria in multi-player general-sum markov games. Previous results ach