自适应的 PSRO:走向一种自动基于人口的游戏求解器
通过将经验博弈分析与深度强化学习相互交错,Policy-Space Response Oracles(PSRO)是一种用于学习多智能体系统中的策略的通用算法框架,其在每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。我们介绍了两种 PSRO 的变体,旨在减少 Deep RL 训练期间需要的模拟量,分别是 Mixed-Oracles 和 Mixed-Opponents。这些算法在减少训练所需的模拟量的同时,实验证明产生了与游戏等价或更好的解决方案。
Jun, 2021
本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。
Sep, 2019
本文提出了一种新的基于 tabular 的双选手零和博弈算法 ——ADO,用于计算两个策略集合上的 Nash 均衡,并最小化敌对策略的可利用性,同时提出了一个通过 RM-BR DO 算法来寻找策略分布的方法,实验证明相比于 DO 和 PSRO 等算法,本文方法获得了更低的可利用性且可单调减少。
Jan, 2022
该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题,通过引入 no-regret optimization 和 parallelization 等技术,有效地优化了算法,在保证 Kuhn 和 Leduc Poker 博弈中的可利用度的情况下,提高了 50x 的速度和 10 倍的数据效率。
Jan, 2022
文章提出了一种新的 PSRO 算法变体,即 Policy Space Diversity PSRO(PSD-PSRO),通过一种新的多样性度量,它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。
Jun, 2023
本篇论文介绍了 Pipeline PSRO,第一种可拓展的寻找大型零和不完全信息博弈中近似纳什均衡的方法,通过维护一个分层管道的强化学习工作者,每个工作者训练低层次层次生成的策略,PSRO 并行化,且具有收敛保证。
Jun, 2020
为了解决非传递性的零和游戏问题,该研究提出了一种名为 Fusion-PSRO 的方法,通过模型融合初始化策略,以更好逼近最佳反应策略,并在非传递性矩阵游戏和复杂 Liars Dice 等实验中验证了其在提高几乎所有 PSRO 变体性能方面的有效性。
May, 2024
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明,这种方法能够成功地计算近似 Nash 平衡,并且可以产生与人类谈判相当的代理人。
Feb, 2023
在游戏理论中,一个游戏指的是理性决策者或玩家之间相互作用的模型,他们通过选择来实现各自的目标。本文简要概述了一种快速发展的用于大型游戏的游戏推理框架 —— 策略空间响应预言机(PSRO)。我们首先阐述了引入 PSRO 的动机,并提供了历史背景和将其置于游戏推理方法中的位置。然后,我们重点讨论了 PSRO 中的策略探索问题,即在最小计算成本下构建一个有效的策略组合来建模潜在游戏的挑战。我们还总结了当前提高 PSRO 效率的研究方向,并探讨了 PSRO 在不同领域的应用。最后,我们讨论了未来研究的开放问题。
Mar, 2024
利用基于 PSRO(Policy Space Response Oracle)方法的两人零和博弈进行深度学习解算器的泛化能力提升,实现在不同的 TSP 任务中最大程度的通用性表现,最终实现了解算器人口的效用降低和达到 Nash 均衡。
Oct, 2021