XDO:一种用于外部形式博弈的双预言机算法
本文提出了一种新的基于 tabular 的双选手零和博弈算法 ——ADO,用于计算两个策略集合上的 Nash 均衡,并最小化敌对策略的可利用性,同时提出了一个通过 RM-BR DO 算法来寻找策略分布的方法,实验证明相比于 DO 和 PSRO 等算法,本文方法获得了更低的可利用性且可单调减少。
Jan, 2022
该研究提出了 Efficient PSRO 方法来解决传统 Policy Space Response Oracle 方法中存在的计算和探索效率低的问题,通过引入 no-regret optimization 和 parallelization 等技术,有效地优化了算法,在保证 Kuhn 和 Leduc Poker 博弈中的可利用度的情况下,提高了 50x 的速度和 10 倍的数据效率。
Jan, 2022
通过将经验博弈分析与深度强化学习相互交错,Policy-Space Response Oracles(PSRO)是一种用于学习多智能体系统中的策略的通用算法框架,其在每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。我们介绍了两种 PSRO 的变体,旨在减少 Deep RL 训练期间需要的模拟量,分别是 Mixed-Oracles 和 Mixed-Opponents。这些算法在减少训练所需的模拟量的同时,实验证明产生了与游戏等价或更好的解决方案。
Jun, 2021
本文基于博弈论原理研究了一种基于人口统计的培训体系 —— 策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。
Sep, 2019
为了解决非传递性的零和游戏问题,该研究提出了一种名为 Fusion-PSRO 的方法,通过模型融合初始化策略,以更好逼近最佳反应策略,并在非传递性矩阵游戏和复杂 Liars Dice 等实验中验证了其在提高几乎所有 PSRO 变体性能方面的有效性。
May, 2024
本篇论文介绍了 Pipeline PSRO,第一种可拓展的寻找大型零和不完全信息博弈中近似纳什均衡的方法,通过维护一个分层管道的强化学习工作者,每个工作者训练低层次层次生成的策略,PSRO 并行化,且具有收敛保证。
Jun, 2020
文章提出了一种新的 PSRO 算法变体,即 Policy Space Diversity PSRO(PSD-PSRO),通过一种新的多样性度量,它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。
Jun, 2023
通过使用 Transformer 架构,我们提出了一种自适应超参数选择的参数化策略空间响应预言机(PSRO)方法,该方法在各种双人零和游戏中展现出优越的性能。
Apr, 2024
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明,这种方法能够成功地计算近似 Nash 平衡,并且可以产生与人类谈判相当的代理人。
Feb, 2023
该研究开发了一种新算法,名为 Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。
Oct, 2023