Mar, 2021

XDO:一种用于外部形式博弈的双预言机算法

TL;DR本文提出 Policy Space Response Oracles (PSRO)、Extensive-Form Double Oracle (XDO) 和 Neural XDO 三种算法,中其中 XDO 更适用于大型博弈中的二人零和游戏,与 PSRO 相比,可以线性收敛至近似纳什均衡。在实验中,XDO 和 NXDO 取得了优异的性能表现。