使用基线的蒙特卡罗对策遗憾最小化中的方差缩减（VR-MCCFR）在广义式博弈中的应用

Sep, 2018

使用基线的蒙特卡罗对策遗憾最小化中的方差缩减（VR-MCCFR）在广义式博弈中的应用

Variance Reduction in Monte Carlo Counterfactual Regret Minimization (VR-MCCFR) for Extensive Form Games using Baselines

PDF

Martin Schmid, Neil Burch, Marc Lanctot, Matej Moravcik, Rudolf Kadlec...

TL;DR本文介绍了一种方差缩减技术 VR-MCCFR，它可以应用于任何 MCCFR 的采样变型方法。这个新公式可以从同一事件中的其他估计值启动引导，即引导基线在采样轨迹上沿估计传递收益，而估计值保持不偏。实验结果表明，VR-MCCFR 可以提供一个数量级的加速，同时经验方差降低三个数量级。方差的降低使得 CFR + 可以和采样一起使用，加速两个数量级。

Abstract

Learning strategies for imperfect information games from samples of interaction is a challenging problem. A common method for this setting, Monte Carlo Counterfactual Regret Minimization (MCCFR), can have slow long-term convergence rates due to high variance. In this paper, we introduce a variance reduction technique (VR-MCCFR) that applies to any sampling v

monte carlo counterfactual regret minimization variance reduction technique policy gradient reinforcement learning bootstrapping cfr+

发现论文，激发创造

广义式博弈中随机后悔最小化

本论文提出了一种新的用于开发随机后悔最小化方法的框架，该框架允许使用任何后悔最小化算法，结合任何梯度估算器，可以实例化几种新的随机方法来解决顺序游戏，并在三个游戏上展示了广泛的实验结果，其中一些方法的变体表现优于 MCCFR。

Feb, 2020

针对完全信息博弈的低方差和零方差基准线

本文介绍了一种针对信息不完全的 EFGs，应用基础估计值减少方差的方法，提高了现有技术的效益，并提出了新的基线功能，其中一种选择 —— 预测基准线 —— 在特定的采样方案下是可证明最优的。

Jul, 2019

纯蒙特卡罗反事实遗憾最小化

基于 Counterfactual Regret Minimization（CFR）方法，该研究提出了一种名为 Pure CFR（PCFR）的新算法，扩展了 CFR 并结合了 Fictitious Play（FP）的概念，通过使用最佳响应策略而非遗憾匹配策略提高算法性能。PCFR 具备与 CFR 及其变种算法包括 Monte Carlo CFR（MCCFR）相结合的能力，实验证明了其能够通过 Blackwell 可达性来达到收敛，而 PMCCFR 能显著降低时间和空间复杂度，至少比 MCCFR 收敛速度快三倍。此外，由于 PMCCFR 不通过严格劣势策略路径，研究者还开发了一种新的启动算法，该算法受严格劣势策略消除方法的启发，结果表明使用新的启动算法的 PMCCFR 优化比 CFR + 算法收敛速度快两个数量级。

Sep, 2023

通过折现遗憾最小化解决不完美信息博弈

本文介绍了改进的 Counterfactual regret minimization（CFR）算法，包括折扣遗憾值、迭代加权和非标准遗憾值最小化等四个变量，我们的新算法在大规模现实环境下的每个游戏中都优于之前的方法 CFR+。另外，与 CFR + 相比，我们的算法更容易应用于现代的不完美信息游戏修剪技术和采样方法。

Sep, 2018

深度对抗性遗憾最小化

本文介绍了一种新的 CFR 形式：Deep CFR，它不再需要抽象，而是使用深度神经网络来近似 CFR 在完整游戏中的行为，并展示了它在大型扑克游戏中的成功表现。

Nov, 2018

具有不完全回忆的拓展形式博弈中的无悔学习

本文提出无法完全回忆的游戏中，针对使用 CFR 算法的一般类游戏的第一个遗憾上限及其不适用性，同时证明使用 CFR 在任何抽象类游戏中都适用，且在三种情况下证明不完全回忆可用于交换少量遗憾和显著降低内存。

May, 2012

稳定预测性乐观反事实遗憾最小化

本文提出了第一个在 CFIR 基础上打破了迭代次数平方根的收敛速度的 CFR 变体，通过优化后的遗憾最小化器和新的稳定性概念，在 CFR 中引入了稳定可预测性，并将每个遗憾最小化器稳定性设置为所在决策树中的位置，实现了 $O (T^{-3/4})$ 的收敛速率。

Feb, 2019

控制变量的多保真度强化学习

研究了基于多种保真度数据的强化学习问题，并提出了一种基于控制变量的多能级估计器以及基于多功能 Monte Carlo RL 方法来提高代理人在高保真度环境中的学习性能。

Jun, 2022

行为受限零和博弈中的遗憾最小化

使用 CFR 框架开发算法以解决行为约束的 extensive-form games，同时计算近似 Nash 平衡改进。比标准算法更好，收敛速率与最先进的 Nash 平衡计算算法相当。

Nov, 2017

RL-CFR: 在具有强化学习的不完全信息扩展形式博弈中改进动作抽象

RL-CFR 是一种基于强化学习的动态行动抽象方法，通过建立具有强化学习指导的行动抽象的游戏树，并利用反事实后悔最小化 (CFR) 进行策略推导，实现了更高的期望回报而不增加 CFR 解决时间，在 Heads-up No-limit Texas Hold'em 等游戏中胜率明显优于 ReBeL 的复制和 Slumbot。

Mar, 2024