ICMLMay, 2023

多智能体强化学习中局部优化实现全局最优

TL;DR该研究提出了一种基于多智能体强化学习的 PPO 算法,其中每个代理的本地策略类似于 vanilla PPO,并且通过引入悲观主义来评估策略。该算法是合作 Markov 游戏中首个可证明收敛的多智能体 PPO 算法。