Jan, 2022

高效的策略空间响应预测

TL;DR该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题,通过引入 no-regret optimization 和 parallelization 等技术,有效地优化了算法,在保证 Kuhn 和 Leduc Poker 博弈中的可利用度的情况下,提高了 50x 的速度和 10 倍的数据效率。