CFR-p: 带有层次策略抽象的反事实遗憾最小化及其在二人麻将中的应用

Jul, 2023

CFR-p: 带有层次策略抽象的反事实遗憾最小化及其在二人麻将中的应用

CFR-p: Counterfactual Regret Minimization with Hierarchical Policy Abstraction, and its Application to Two-player Mahjong

PDF

Shiheng Wang

TL;DR应用反事实遗憾最小化（CFR）算法于麻将这一不完全信息游戏，通过进行博弈论分析、基于获胜策略的分级抽象，研究了两人麻将的复杂性及其与扑克游戏的差异，此框架可以推广到其他不完全信息游戏。

Abstract

counterfactual regret minimization(CFR) has shown its success in Texas Hold'em poker. We apply this algorithm to another popular incomplete information game, mahjong. Compared to the poker game, →

counterfactual regret minimization mahjong incomplete information game game theoretical analysis hierarchical abstraction

发现论文，激发创造

深度对抗性遗憾最小化

本文介绍了一种新的 CFR 形式：Deep CFR，它不再需要抽象，而是使用深度神经网络来近似 CFR 在完整游戏中的行为，并展示了它在大型扑克游戏中的成功表现。

Nov, 2018

使用 CFR + 求解大规模不完全信息博弈

本文介绍了 CFR$^+$ 算法，它通常在计算时间上比以前已知算法快一个数量级或更多，同时可能需要更少的内存。该算法可用于不完美信息博弈中，是近似纳什均衡解的最佳方法之一。

Jul, 2014

具有不完全回忆的拓展形式博弈中的无悔学习

本文提出无法完全回忆的游戏中，针对使用 CFR 算法的一般类游戏的第一个遗憾上限及其不适用性，同时证明使用 CFR 在任何抽象类游戏中都适用，且在三种情况下证明不完全回忆可用于交换少量遗憾和显著降低内存。

May, 2012

通过折现遗憾最小化解决不完美信息博弈

本文介绍了改进的 Counterfactual regret minimization（CFR）算法，包括折扣遗憾值、迭代加权和非标准遗憾值最小化等四个变量，我们的新算法在大规模现实环境下的每个游戏中都优于之前的方法 CFR+。另外，与 CFR + 相比，我们的算法更容易应用于现代的不完美信息游戏修剪技术和采样方法。

Sep, 2018

层次深度对抗性后悔最小化

本文介绍了首个用于处理具有广泛状态空间和深层游戏树的任务的层次 Deep CFR（HDCFR）算法，其结合了基于技能的策略学习和 CFR，并采用神经网络作为函数逼近器。

May, 2023

纯蒙特卡罗反事实遗憾最小化

基于 Counterfactual Regret Minimization（CFR）方法，该研究提出了一种名为 Pure CFR（PCFR）的新算法，扩展了 CFR 并结合了 Fictitious Play（FP）的概念，通过使用最佳响应策略而非遗憾匹配策略提高算法性能。PCFR 具备与 CFR 及其变种算法包括 Monte Carlo CFR（MCCFR）相结合的能力，实验证明了其能够通过 Blackwell 可达性来达到收敛，而 PMCCFR 能显著降低时间和空间复杂度，至少比 MCCFR 收敛速度快三倍。此外，由于 PMCCFR 不通过严格劣势策略路径，研究者还开发了一种新的启动算法，该算法受严格劣势策略消除方法的启发，结果表明使用新的启动算法的 PMCCFR 优化比 CFR + 算法收敛速度快两个数量级。

Sep, 2023

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

稳定预测性乐观反事实遗憾最小化

本文提出了第一个在 CFIR 基础上打破了迭代次数平方根的收敛速度的 CFR 变体，通过优化后的遗憾最小化器和新的稳定性概念，在 CFR 中引入了稳定可预测性，并将每个遗憾最小化器稳定性设置为所在决策树中的位置，实现了 $O (T^{-3/4})$ 的收敛速率。

Feb, 2019

RL-CFR: 在具有强化学习的不完全信息扩展形式博弈中改进动作抽象

RL-CFR 是一种基于强化学习的动态行动抽象方法，通过建立具有强化学习指导的行动抽象的游戏树，并利用反事实后悔最小化 (CFR) 进行策略推导，实现了更高的期望回报而不增加 CFR 解决时间，在 Heads-up No-limit Texas Hold'em 等游戏中胜率明显优于 ReBeL 的复制和 Slumbot。

Mar, 2024

组合无遗憾和 Q 学习

介绍一种名为本地无后悔学习（LONR）的算法，它使用类似于 Q 学习的更新规则，允许在没有输入状态或完美回忆的情况下进行学习，证明了其在 MDPs 和有限的扩展中的收敛性，并呈现实验结果，表明它在许多情况下实现了最后迭代的收敛，特别是 NoSDE 游戏这类的 Markov 游戏。

Oct, 2019