ICMLJan, 2019

对称零和博弈中的开放式学习

TL;DR本文提出了一个几何框架来制定零和博弈中的智能体目标,以构建产生开放式学习的自适应目标序列,从而产生比现有算法更强的智能体集合。我们将 PSRO_rN 应用于两个高度非传递性的资源分配游戏,并发现 PSRO_rN 始终优于现有替代方案。