CFR-p: 带有层次策略抽象的反事实遗憾最小化及其在二人麻将中的应用
本文介绍了一种新的 CFR 形式:Deep CFR,它不再需要抽象,而是使用深度神经网络来近似 CFR 在完整游戏中的行为,并展示了它在大型扑克游戏中的成功表现。
Nov, 2018
本文介绍了 CFR$^+$ 算法,它通常在计算时间上比以前已知算法快一个数量级或更多,同时可能需要更少的内存。该算法可用于不完美信息博弈中,是近似纳什均衡解的最佳方法之一。
Jul, 2014
本文提出无法完全回忆的游戏中,针对使用 CFR 算法的一般类游戏的第一个遗憾上限及其不适用性,同时证明使用 CFR 在任何抽象类游戏中都适用,且在三种情况下证明不完全回忆可用于交换少量遗憾和显著降低内存。
May, 2012
本文介绍了改进的 Counterfactual regret minimization(CFR)算法,包括折扣遗憾值、迭代加权和非标准遗憾值最小化等四个变量,我们的新算法在大规模现实环境下的每个游戏中都优于之前的方法 CFR+。另外,与 CFR + 相比,我们的算法更容易应用于现代的不完美信息游戏修剪技术和采样方法。
Sep, 2018
本文介绍了首个用于处理具有广泛状态空间和深层游戏树的任务的层次 Deep CFR(HDCFR)算法,其结合了基于技能的策略学习和 CFR,并采用神经网络作为函数逼近器。
May, 2023
基于 Counterfactual Regret Minimization(CFR)方法,该研究提出了一种名为 Pure CFR(PCFR)的新算法,扩展了 CFR 并结合了 Fictitious Play(FP)的概念,通过使用最佳响应策略而非遗憾匹配策略提高算法性能。PCFR 具备与 CFR 及其变种算法包括 Monte Carlo CFR(MCCFR)相结合的能力,实验证明了其能够通过 Blackwell 可达性来达到收敛,而 PMCCFR 能显著降低时间和空间复杂度,至少比 MCCFR 收敛速度快三倍。此外,由于 PMCCFR 不通过严格劣势策略路径,研究者还开发了一种新的启动算法,该算法受严格劣势策略消除方法的启发,结果表明使用新的启动算法的 PMCCFR 优化比 CFR + 算法收敛速度快两个数量级。
Sep, 2023
提出了一种适用于黑盒环境的极限情况的后悔最小化算法,通过以前保证仅实现的限制来实现亚线性的后悔率,并将其应用于逼近 Nash 均衡,学习最佳反应以及安全的对手利用等问题。
Mar, 2021
本文提出了第一个在 CFIR 基础上打破了迭代次数平方根的收敛速度的 CFR 变体,通过优化后的遗憾最小化器和新的稳定性概念,在 CFR 中引入了稳定可预测性,并将每个遗憾最小化器稳定性设置为所在决策树中的位置,实现了 $O (T^{-3/4})$ 的收敛速率。
Feb, 2019
RL-CFR 是一种基于强化学习的动态行动抽象方法,通过建立具有强化学习指导的行动抽象的游戏树,并利用反事实后悔最小化 (CFR) 进行策略推导,实现了更高的期望回报而不增加 CFR 解决时间,在 Heads-up No-limit Texas Hold'em 等游戏中胜率明显优于 ReBeL 的复制和 Slumbot。
Mar, 2024
介绍一种名为本地无后悔学习(LONR)的算法,它使用类似于 Q 学习的更新规则,允许在没有输入状态或完美回忆的情况下进行学习,证明了其在 MDPs 和有限的扩展中的收敛性,并呈现实验结果,表明它在许多情况下实现了最后迭代的收敛,特别是 NoSDE 游戏这类的 Markov 游戏。
Oct, 2019