Dec, 2023
具有单一控制器的多人马尔可夫博弈中的乐观策略梯度:超越Minty属性的收敛
Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property
TL;DR在这篇论文中,我们提出了一个新的框架来描述多人Markov游戏中的乐观策略梯度方法,在单个控制器下收敛到稳定的ε-NE,其收敛速度为O(1/ε^2)次迭代,该框架基于对经典Minty性质的自然推广,我们相信它在Markov游戏之外也有进一步的应用。