XDO：一种用于外部形式博弈的双预言机算法

Mar, 2021

XDO：一种用于外部形式博弈的双预言机算法

XDO: A Double Oracle Algorithm for Extensive-Form Games

Stephen McAleer, John Lanier, Kevin Wang, Pierre Baldi, Roy Fox

TL;DR本文提出 Policy Space Response Oracles (PSRO)、Extensive-Form Double Oracle (XDO) 和 Neural XDO 三种算法，中其中 XDO 更适用于大型博弈中的二人零和游戏，与 PSRO 相比，可以线性收敛至近似纳什均衡。在实验中，XDO 和 NXDO 取得了优异的性能表现。

Abstract

Policy Space Response Oracles (psro) is a reinforcement learning (RL) algorithm for two-player zero-sum games that has been empirically shown to find approximate Nash equilibria in large games. Although

psro reinforcement learning nash equilibrium extensive-form double oracle neural xdo

发现论文，激发创造

两人零和博弈的 Anytime PSRO

本文提出了一种新的基于 tabular 的双选手零和博弈算法 ——ADO，用于计算两个策略集合上的 Nash 均衡，并最小化敌对策略的可利用性，同时提出了一个通过 RM-BR DO 算法来寻找策略分布的方法，实验证明相比于 DO 和 PSRO 等算法，本文方法获得了更低的可利用性且可单调减少。

Jan, 2022

高效的策略空间响应预测

该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题，通过引入 no-regret optimization 和 parallelization 等技术，有效地优化了算法，在保证 Kuhn 和 Leduc Poker 博弈中的可利用度的情况下，提高了 50x 的速度和 10 倍的数据效率。

Jan, 2022

单策略最佳响应下的迭代经验博弈求解

通过将经验博弈分析与深度强化学习相互交错，Policy-Space Response Oracles（PSRO）是一种用于学习多智能体系统中的策略的通用算法框架，其在每次迭代中使用深度强化学习来训练最佳响应，从而减少了模拟调整所需的计算量。我们介绍了两种 PSRO 的变体，旨在减少 Deep RL 训练期间需要的模拟量，分别是 Mixed-Oracles 和 Mixed-Opponents。这些算法在减少训练所需的模拟量的同时，实验证明产生了与游戏等价或更好的解决方案。

Jun, 2021

多智能体学习的通用训练方法

本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕（PSRO），并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank，在一些游戏分类中建立了收敛保证，并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明，基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。

Sep, 2019

融合 - PSRO：策略空间响应预言的纳什策略融合

为了解决非传递性的零和游戏问题，该研究提出了一种名为 Fusion-PSRO 的方法，通过模型融合初始化策略，以更好逼近最佳反应策略，并在非传递性矩阵游戏和复杂 Liars Dice 等实验中验证了其在提高几乎所有 PSRO 变体性能方面的有效性。

May, 2024

Pipeline PSRO: 寻找大型博弈近似纳什均衡的可扩展方法

本篇论文介绍了 Pipeline PSRO，第一种可拓展的寻找大型零和不完全信息博弈中近似纳什均衡的方法，通过维护一个分层管道的强化学习工作者，每个工作者训练低层次层次生成的策略，PSRO 并行化，且具有收敛保证。

Jun, 2020

非传递博弈的政策空间多样性

文章提出了一种新的 PSRO 算法变体，即 Policy Space Diversity PSRO（PSD-PSRO），通过一种新的多样性度量，它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。

Jun, 2023

自适应的 PSRO：走向一种自动基于人口的游戏求解器

通过使用 Transformer 架构，我们提出了一种自适应超参数选择的参数化策略空间响应预言机（PSRO）方法，该方法在各种双人零和游戏中展现出优越的性能。

Apr, 2024

在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念

本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明，这种方法能够成功地计算近似 Nash 平衡，并且可以产生与人类谈判相当的代理人。

Feb, 2023

虚构交互：混合合作竞争游戏中全局纳什平衡的学习

该研究开发了一种新算法，名为 Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。

Oct, 2023