constrained markov games offer a formal mathematical framework for modeling
multi-agent reinforcement learning problems where the behavior of the agents is
subject to constraints. In this work, we focus on the re
本文研究策略梯度方法在 Markov 潜在博弈多智能体强化学习问题上的全局非渐进收敛性质,提出新的独立策略梯度算法,证明算法达到 epsilon-Nash 平衡的迭代复杂度为 O (1/epsilon^2),并在利用函数逼近的样本算法中,建立了样本复杂度为 O (1/epsilon^5) 的界限。同时,还找到了一类独立策略梯度算法,可在玩家对游戏类型无感知的情况下,实现零和马尔科夫博弈和合作马尔科夫博弈的收敛性。通过实验验证了理论成果的优点和有效性。