Pipeline PSRO: 寻找大型博弈近似纳什均衡的可扩展方法

Jun, 2020

Pipeline PSRO: 寻找大型博弈近似纳什均衡的可扩展方法

Pipeline PSRO: A Scalable Approach for Finding Approximate Nash Equilibria in Large Games

Stephen McAleer, John Lanier, Roy Fox, Pierre Baldi

TL;DR本篇论文介绍了 Pipeline PSRO，第一种可拓展的寻找大型零和不完全信息博弈中近似纳什均衡的方法，通过维护一个分层管道的强化学习工作者，每个工作者训练低层次层次生成的策略，PSRO 并行化，且具有收敛保证。

Abstract

Finding approximate Nash equilibria in zero-sum imperfect-information games is challenging when the number of information states is large. Policy Space Response Oracles (PSRO) is a deep reinforcement learning alg

nash equilibrium imperfect-information games policy space response oracles deep reinforcement learning pipeline psro

发现论文，激发创造

多智能体学习的通用训练方法

本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕（PSRO），并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank，在一些游戏分类中建立了收敛保证，并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明，基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。

Sep, 2019

单策略最佳响应下的迭代经验博弈求解

通过将经验博弈分析与深度强化学习相互交错，Policy-Space Response Oracles（PSRO）是一种用于学习多智能体系统中的策略的通用算法框架，其在每次迭代中使用深度强化学习来训练最佳响应，从而减少了模拟调整所需的计算量。我们介绍了两种 PSRO 的变体，旨在减少 Deep RL 训练期间需要的模拟量，分别是 Mixed-Oracles 和 Mixed-Opponents。这些算法在减少训练所需的模拟量的同时，实验证明产生了与游戏等价或更好的解决方案。

Jun, 2021

高效的策略空间响应预测

该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题，通过引入 no-regret optimization 和 parallelization 等技术，有效地优化了算法，在保证 Kuhn 和 Leduc Poker 博弈中的可利用度的情况下，提高了 50x 的速度和 10 倍的数据效率。

Jan, 2022

两人零和博弈的 Anytime PSRO

本文提出了一种新的基于 tabular 的双选手零和博弈算法 ——ADO，用于计算两个策略集合上的 Nash 均衡，并最小化敌对策略的可利用性，同时提出了一个通过 RM-BR DO 算法来寻找策略分布的方法，实验证明相比于 DO 和 PSRO 等算法，本文方法获得了更低的可利用性且可单调减少。

Jan, 2022

在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念

本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明，这种方法能够成功地计算近似 Nash 平衡，并且可以产生与人类谈判相当的代理人。

Feb, 2023

融合 - PSRO：策略空间响应预言的纳什策略融合

为了解决非传递性的零和游戏问题，该研究提出了一种名为 Fusion-PSRO 的方法，通过模型融合初始化策略，以更好逼近最佳反应策略，并在非传递性矩阵游戏和复杂 Liars Dice 等实验中验证了其在提高几乎所有 PSRO 变体性能方面的有效性。

May, 2024

自适应的 PSRO：走向一种自动基于人口的游戏求解器

通过使用 Transformer 架构，我们提出了一种自适应超参数选择的参数化策略空间响应预言机（PSRO）方法，该方法在各种双人零和游戏中展现出优越的性能。

Apr, 2024

非传递博弈的政策空间多样性

文章提出了一种新的 PSRO 算法变体，即 Policy Space Diversity PSRO（PSD-PSRO），通过一种新的多样性度量，它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。

Jun, 2023

XDO：一种用于外部形式博弈的双预言机算法

本文提出 Policy Space Response Oracles (PSRO)、Extensive-Form Double Oracle (XDO) 和 Neural XDO 三种算法，中其中 XDO 更适用于大型博弈中的二人零和游戏，与 PSRO 相比，可以线性收敛至近似纳什均衡。在实验中，XDO 和 NXDO 取得了优异的性能表现。

Mar, 2021

政策空间响应预测：一项调查

在游戏理论中，一个游戏指的是理性决策者或玩家之间相互作用的模型，他们通过选择来实现各自的目标。本文简要概述了一种快速发展的用于大型游戏的游戏推理框架 —— 策略空间响应预言机（PSRO）。我们首先阐述了引入 PSRO 的动机，并提供了历史背景和将其置于游戏推理方法中的位置。然后，我们重点讨论了 PSRO 中的策略探索问题，即在最小计算成本下构建一个有效的策略组合来建模潜在游戏的挑战。我们还总结了当前提高 PSRO 效率的研究方向，并探讨了 PSRO 在不同领域的应用。最后，我们讨论了未来研究的开放问题。

Mar, 2024