使用函数遗憾估计来解决游戏

AAAINov, 2014

Solving Games with Functional Regret Estimation

Kevin Waugh, Dustin Morrill, J. Andrew Bagnell, Michael Bowling

TL;DR本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Abstract

We propose a novel online learning method for minimizing regret in large extensive-form games. The approach learns a function approximator online to estimate the regret for choosing a particular action. A no-regr

online learning extensive-form games regret minimization function approximation nash equilibrium

发现论文，激发创造

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021

行为受限零和博弈中的遗憾最小化

使用 CFR 框架开发算法以解决行为约束的 extensive-form games，同时计算近似 Nash 平衡改进。比标准算法更好，收敛速率与最先进的 Nash 平衡计算算法相当。

Nov, 2017

从增强学习到无悔在线学习的降低

提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法，将强化学习问题分解成了遗憾最小化和函数逼近两个部分，并指出了这一缩减方法的重要性

Nov, 2019

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

重复博弈中的政策后悔

本文重新审视了在线学习中的策略后悔问题，表明在某些情况下，外部后悔和策略后悔是不兼容的，而在自利智能体领域，如果使用某些算法，则可以保证外部后悔和策略后悔都是有利的。本文还介绍了一个新的均衡概念 —— 策略均衡，并表明粗略相关均衡是策略均衡的一个真子集。

Nov, 2018

非凸博弈中高效的遗憾最小化

本文探讨了在非凸损失函数的重复博弈中如何最小化遗憾，并给出了基于梯度下降的方法来实现最优遗憾并保证收敛到平衡点。

Jul, 2017

一种连续时间的在线优化方法

研究一种基于连续时间的在线优化策略族，证明其能够达到无遗憾学习。从传统的离散时间角度来看，这种方法可导出大量离散时间算法（包括一些经典遗憾分析算法）的无遗憾性质，并统一了许多经典的遗憾上界，得到了一个无需借助于倍增技巧即可保证 $O (n^{-1/2})$ 遗憾上界的学习策略类。

Jan, 2014

Fenchel 博弈中的无悔动态：算法凸优化的统一框架

研究了凸优化问题，提出了基于无遗憾游戏动力学的算法框架，并讨论了多种无遗憾学习算法的选择策略及其拥有的收敛性质，证明了很多经典的凸一阶方法都可以被理解为该框架的特殊情况，并且提出了一些之前未被发现的用于特殊凸优化问题的一阶方法。

Nov, 2021

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021