研究了团队最大最小均衡及其相关算法在战略游戏中的应用,并探讨了其相对于纳什均衡和最大最小均衡的效率界限。
Nov, 2016
本文基于博弈论原理研究了一种基于人口统计的培训体系——策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。
Sep, 2019
本研究通过对称的零和矩阵游戏,证明了联盟形成可以被看作是一个社会困境,并且实证表明,在多代理强化学习中,天真的方法往往失败。同时,我们引入了点对点的合约机制来发现和执行联盟。最后,我们将我们的代理模型推广到了包括时间延伸合约的情况,并提出了进一步研究的机会。
Feb, 2020
本文提出了一种新的基于tabular的双选手零和博弈算法——ADO,用于计算两个策略集合上的Nash均衡,并最小化敌对策略的可利用性,同时提出了一个通过RM-BR DO算法来寻找策略分布的方法,实验证明相比于DO和PSRO等算法,本文方法获得了更低的可利用性且可单调减少。
Jan, 2022
该研究提出了Efficient PSRO方法来解决传统Policy Space Response Oracle方法中存在的计算和探索效率低的问题,通过引入no-regret optimization和parallelization等技术,有效地优化了算法,在保证Kuhn和Leduc Poker博弈中的可利用度的情况下,提高了50x的速度和10倍的数据效率。
文章提出了一种新的PSRO算法变体,即Policy Space Diversity PSRO(PSD-PSRO),通过一种新的多样性度量,它可以更有效地产生明显不易被利用的政策来近似Nash均衡。
Jun, 2023
该研究开发了一种新算法,名为Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了FXP能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。
Oct, 2023
在游戏理论中,一个游戏指的是理性决策者或玩家之间相互作用的模型,他们通过选择来实现各自的目标。本文简要概述了一种快速发展的用于大型游戏的游戏推理框架——策略空间响应预言机(PSRO)。我们首先阐述了引入PSRO的动机,并提供了历史背景和将其置于游戏推理方法中的位置。然后,我们重点讨论了PSRO中的策略探索问题,即在最小计算成本下构建一个有效的策略组合来建模潜在游戏的挑战。我们还总结了当前提高PSRO效率的研究方向,并探讨了PSRO在不同领域的应用。最后,我们讨论了未来研究的开放问题。
Mar, 2024
通过使用Transformer架构,我们提出了一种自适应超参数选择的参数化策略空间响应预言机(PSRO)方法,该方法在各种双人零和游戏中展现出优越的性能。
Apr, 2024
为了解决非传递性的零和游戏问题,该研究提出了一种名为Fusion-PSRO的方法,通过模型融合初始化策略,以更好逼近最佳反应策略,并在非传递性矩阵游戏和复杂Liars Dice等实验中验证了其在提高几乎所有PSRO变体性能方面的有效性。
May, 2024