AAAIJan, 2022

两人零和博弈的 Anytime PSRO

TL;DR本文提出了一种新的基于 tabular 的双选手零和博弈算法 ——ADO,用于计算两个策略集合上的 Nash 均衡,并最小化敌对策略的可利用性,同时提出了一个通过 RM-BR DO 算法来寻找策略分布的方法,实验证明相比于 DO 和 PSRO 等算法,本文方法获得了更低的可利用性且可单调减少。