异质零和团队游戏中的事前均衡计算

Oct, 2024

异质零和团队游戏中的事前均衡计算

Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Games

Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang...

TL;DR本研究解决了异质团队零和游戏中的事前均衡问题，现有的Team PSRO方法在角色不同的团队中无法覆盖所有策略空间，导致次优结果。提出了异质PSRO（H-PSRO）框架，通过优化异质团队成员的策略实现收益的单调提升，证明了其在异质团队游戏中的较低可利用性，相较于非异质基准表现更优。

Abstract

The Ex Ante Equilibrium for two-team Zero-Sum Games, where agents within each team collaborate to compete against the opposing team, is known to be the best a team can do for coordination. Many existing works on

发现论文，激发创造

团队最大最小均衡：效率界限与算法

研究了团队最大最小均衡及其相关算法在战略游戏中的应用，并探讨了其相对于纳什均衡和最大最小均衡的效率界限。

Nov, 2016

多智能体学习的通用训练方法

本文基于博弈论原理研究了一种基于人口统计的培训体系——策略空间响应神谕（PSRO），并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank，在一些游戏分类中建立了收敛保证，并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明，基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。

Sep, 2019

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

两人零和博弈的Anytime PSRO

本文提出了一种新的基于tabular的双选手零和博弈算法——ADO，用于计算两个策略集合上的Nash均衡，并最小化敌对策略的可利用性，同时提出了一个通过RM-BR DO算法来寻找策略分布的方法，实验证明相比于DO和PSRO等算法，本文方法获得了更低的可利用性且可单调减少。

Jan, 2022

高效的策略空间响应预测

该研究提出了Efficient PSRO方法来解决传统Policy Space Response Oracle方法中存在的计算和探索效率低的问题，通过引入no-regret optimization和parallelization等技术，有效地优化了算法，在保证Kuhn和Leduc Poker博弈中的可利用度的情况下，提高了50x的速度和10倍的数据效率。

Jan, 2022

非传递博弈的政策空间多样性

文章提出了一种新的PSRO算法变体，即Policy Space Diversity PSRO（PSD-PSRO），通过一种新的多样性度量，它可以更有效地产生明显不易被利用的政策来近似Nash均衡。

Jun, 2023

虚构交互：混合合作竞争游戏中全局纳什平衡的学习

该研究开发了一种新算法，名为Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了FXP能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。

Oct, 2023

政策空间响应预测：一项调查

在游戏理论中，一个游戏指的是理性决策者或玩家之间相互作用的模型，他们通过选择来实现各自的目标。本文简要概述了一种快速发展的用于大型游戏的游戏推理框架——策略空间响应预言机（PSRO）。我们首先阐述了引入PSRO的动机，并提供了历史背景和将其置于游戏推理方法中的位置。然后，我们重点讨论了PSRO中的策略探索问题，即在最小计算成本下构建一个有效的策略组合来建模潜在游戏的挑战。我们还总结了当前提高PSRO效率的研究方向，并探讨了PSRO在不同领域的应用。最后，我们讨论了未来研究的开放问题。

Mar, 2024

自适应的PSRO：走向一种自动基于人口的游戏求解器

通过使用Transformer架构，我们提出了一种自适应超参数选择的参数化策略空间响应预言机（PSRO）方法，该方法在各种双人零和游戏中展现出优越的性能。

Apr, 2024

融合-PSRO：策略空间响应预言的纳什策略融合

为了解决非传递性的零和游戏问题，该研究提出了一种名为Fusion-PSRO的方法，通过模型融合初始化策略，以更好逼近最佳反应策略，并在非传递性矩阵游戏和复杂Liars Dice等实验中验证了其在提高几乎所有PSRO变体性能方面的有效性。

May, 2024