Jun, 2022
强化学习、量化响应均衡和二人零和博弈的统一方法
A Unified Approach to Reinforcement Learning, Quantal Response Equilibria, and Two-Player Zero-Sum Games
Samuel Sokota, Ryan D'Orazio, J. Zico Kolter, Nicolas Loizou, Marc Lanctot...
TL;DR研究磁镜下降算法作为均衡求解器和两人零和游戏强化学习的方法,并证明其在多种场景中都可以取得优秀的性能表现,包括在可扩展形式下的均衡求解和在表格设置下的竞争性结果与 CFR 相比。