本文介绍了改进的 Counterfactual regret minimization(CFR)算法,包括折扣遗憾值、迭代加权和非标准遗憾值最小化等四个变量,我们的新算法在大规模现实环境下的每个游戏中都优于之前的方法 CFR+。另外,与 CFR + 相比,我们的算法更容易应用于现代的不完美信息游戏修剪技术和采样方法。
Sep, 2018
本文提出无法完全回忆的游戏中,针对使用 CFR 算法的一般类游戏的第一个遗憾上限及其不适用性,同时证明使用 CFR 在任何抽象类游戏中都适用,且在三种情况下证明不完全回忆可用于交换少量遗憾和显著降低内存。
May, 2012
基于 Counterfactual Regret Minimization(CFR)方法,该研究提出了一种名为 Pure CFR(PCFR)的新算法,扩展了 CFR 并结合了 Fictitious Play(FP)的概念,通过使用最佳响应策略而非遗憾匹配策略提高算法性能。PCFR 具备与 CFR 及其变种算法包括 Monte Carlo CFR(MCCFR)相结合的能力,实验证明了其能够通过 Blackwell 可达性来达到收敛,而 PMCCFR 能显著降低时间和空间复杂度,至少比 MCCFR 收敛速度快三倍。此外,由于 PMCCFR 不通过严格劣势策略路径,研究者还开发了一种新的启动算法,该算法受严格劣势策略消除方法的启发,结果表明使用新的启动算法的 PMCCFR 优化比 CFR + 算法收敛速度快两个数量级。
Sep, 2023
使用 CFR 框架开发算法以解决行为约束的 extensive-form games,同时计算近似 Nash 平衡改进。比标准算法更好,收敛速率与最先进的 Nash 平衡计算算法相当。
Nov, 2017
本文介绍了 CFR$^+$ 算法,它通常在计算时间上比以前已知算法快一个数量级或更多,同时可能需要更少的内存。该算法可用于不完美信息博弈中,是近似纳什均衡解的最佳方法之一。
Jul, 2014
应用反事实遗憾最小化(CFR)算法于麻将这一不完全信息游戏,通过进行博弈论分析、基于获胜策略的分级抽象,研究了两人麻将的复杂性及其与扑克游戏的差异,此框架可以推广到其他不完全信息游戏。
Jul, 2023
本文介绍了首个用于处理具有广泛状态空间和深层游戏树的任务的层次 Deep CFR(HDCFR)算法,其结合了基于技能的策略学习和 CFR,并采用神经网络作为函数逼近器。
May, 2023
本文提出了第一个在 CFIR 基础上打破了迭代次数平方根的收敛速度的 CFR 变体,通过优化后的遗憾最小化器和新的稳定性概念,在 CFR 中引入了稳定可预测性,并将每个遗憾最小化器稳定性设置为所在决策树中的位置,实现了 $O (T^{-3/4})$ 的收敛速率。
Feb, 2019
提出了一种适用于黑盒环境的极限情况的后悔最小化算法,通过以前保证仅实现的限制来实现亚线性的后悔率,并将其应用于逼近 Nash 均衡,学习最佳反应以及安全的对手利用等问题。
Mar, 2021
本论文提出了一种新的用于开发随机后悔最小化方法的框架,该框架允许使用任何后悔最小化算法,结合任何梯度估算器,可以实例化几种新的随机方法来解决顺序游戏,并在三个游戏上展示了广泛的实验结果,其中一些方法的变体表现优于 MCCFR。
Feb, 2020