ICMLJun, 2021

使用相关均衡元解算器进行非零和多智能体训练

TL;DR提出了用于训练 n 人,广义和形博弈的 Joint Policy-Space Response Oracles (JPSRO) 算法,并建议一种有前途的元解算程序 -- 相关均衡 (correlated equilibria),并提出了最大基尼相关均衡 (MGCE) 的新解决方案概念。通过使用 CE 元解决程序对 JPSRO 进行多次实验,证明了在 n 人,广义和游戏中的收敛性。