MMJul, 2020

基于模型的多智能体强化学习在零和 Markov 博弈中的近似最优样本复杂度

TL;DR本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度,通过两人零和马尔科夫博弈问题的研究发现,此种算法的样本复杂度为大 O (SA(1-γ)-3ε-2), 优于其他方法,但其依赖于动作空间大小,存在一定局限性。