Sep, 2019

多智能体学习的通用训练方法

TL;DR本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。