Jun, 2020

Pipeline PSRO: 寻找大型博弈近似纳什均衡的可扩展方法

TL;DR本篇论文介绍了 Pipeline PSRO,第一种可拓展的寻找大型零和不完全信息博弈中近似纳什均衡的方法,通过维护一个分层管道的强化学习工作者,每个工作者训练低层次层次生成的策略,PSRO 并行化,且具有收敛保证。