Jun, 2022

强化学习、量化响应均衡和二人零和博弈的统一方法

TL;DR研究磁镜下降算法作为均衡求解器和两人零和游戏强化学习的方法,并证明其在多种场景中都可以取得优秀的性能表现,包括在可扩展形式下的均衡求解和在表格设置下的竞争性结果与 CFR 相比。