ABC 轻松统一玻尔兹曼 Q 学习与反事实遗憾最小化

Feb, 2024

ABC 轻松统一玻尔兹曼 Q 学习与反事实遗憾最小化

Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimization

Luca D'Amico-Wong, Hugh Zhang, Marc Lanctot, David C. Parkes

TL;DR提出了 ABCs（Adaptive Branching through Child stationarity）算法，通过结合 Boltzmann Q-learning（BQL）和 counterfactual regret minimization（CFR）两种算法，实现了在单一智能体和多智能体领域的自适应分支，该算法通过测量环境的奖励和转移动力学的稳定性，在马尔可夫决策过程中，ABCs 收敛到最佳策略，最多比 BQL 慢 O（A）个因子，其中 A 是环境中的动作数量，在两人零和游戏中，ABCs 保证收敛到纳什均衡（假设可以访问用于检测稳定性的完美 Oracle），而 BQL 没有这样的保证，在 OpenSpiel 游戏库和 OpenAI Gym 中基准测试时，ABCs 在既非完全稳定也非完全非稳定的环境中表现出了强大的性能，超过了所有先前的方法。

Abstract

We propose abcs (Adaptive Branching through Child stationarity), a best-of-both-worlds algorithm combining boltzmann q-learning (BQL), a c

abcs boltzmann q-learning counterfactual regret minimization stationarity nash equilibrium

发现论文，激发创造

ABC 强化学习

该论文介绍了一个基于 ABC 的简单通用框架，用于无似然贝叶斯强化学习，该算法主要利用先验分布，能够应用在基于详细模拟模型的领域，试验结果证实了该算法在 LSPI 比较中具有潜在优势，并引入了一个定理，证明了该算法是原则上可行的。

Mar, 2013

ABC: 离线模式寻求模仿学习的对抗行为克隆

本文介绍了行为克隆（BC）的关键缺陷，由于 BC 是以最大似然为目标函数，因此在以高斯函数表示学习代理的策略时，BC 对状态条件专家动作分布求取均值导致了问题。为了解决这个问题，我们引入了 ABC 方法，它包含 GAN 训练的元素，具有寻找众数的性质，并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估，并表明它胜过标准的 BC。

Nov, 2022

组合无遗憾和 Q 学习

介绍一种名为本地无后悔学习（LONR）的算法，它使用类似于 Q 学习的更新规则，允许在没有输入状态或完美回忆的情况下进行学习，证明了其在 MDPs 和有限的扩展中的收敛性，并呈现实验结果，表明它在许多情况下实现了最后迭代的收敛，特别是 NoSDE 游戏这类的 Markov 游戏。

Oct, 2019

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

非平稳 RL 中的无模型方法：接近最优遗憾及在多智能体 RL 和库存控制中的应用

提出了 RestartQ-UCB 算法，它是第一个非定常强化学习的模型自由算法，并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。

Oct, 2020

离线多智能体强化学习的反事实保守 Q 学习

我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Sep, 2023

Hamiltonian ABC

介绍了一种基于 Hamiltonian Monte Carlo（HMC）和随机梯度的近似贝叶斯计算框架，称为 Hamiltonian ABC（HABC）。该方法使用前向模拟来近似贝叶斯计算的梯度，并展示了在机器学习领域进行高维问题的 HABC 样本比使用真实梯度的传统贝叶斯推断方法的结果相当。

Mar, 2015

深度对抗性遗憾最小化

本文介绍了一种新的 CFR 形式：Deep CFR，它不再需要抽象，而是使用深度神经网络来近似 CFR 在完整游戏中的行为，并展示了它在大型扑克游戏中的成功表现。

Nov, 2018

行为受限零和博弈中的遗憾最小化

使用 CFR 框架开发算法以解决行为约束的 extensive-form games，同时计算近似 Nash 平衡改进。比标准算法更好，收敛速率与最先进的 Nash 平衡计算算法相当。

Nov, 2017

迈向人类化强化学习：通过 3D 游戏中自适应行为成本驯服非自然行为

通过对行为限制的自适应行为成本，提出了一种新的方法称为自适应行为成本在强化学习中（ABC-RL）来训练一种具有竞争力的类人代理，以达到与人类相似的表现和行为水准。

Sep, 2023