关于全面博弈推理中的有效偏差类型和学习

ICMLFeb, 2021

关于全面博弈推理中的有效偏差类型和学习

Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games

Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael Bowling...

TL;DR本文提出 “Hindsight Rationality” 方法，基于 Counterfactual Regret Minimization（CFR）和 Extensive-Form Regret Minimization（EFR）算法，通过对行为偏差进行形式化建模实现单一智能体的无悔动态和多重智能体的中介平衡，同时以时间选择为核心思想，实现了序列决策环境下的渐进准确解计算。

Abstract

hindsight rationality is an approach to playing general-sum games that prescribes no-regret learning dynamics for individual agents with respect to a set of deviations, and further describes jointly rational behavior among multiple agents with mediated equilibria. To develop hindsight

hindsight rationality sequential decision-making counterfactual regret minimization extensive-form games behavioral deviations

发现论文，激发创造

广泛型博弈中的偏差类型和学习有效性：纠正

该研究旨在通过在 extensive-form games 中进行 behavioral deviations 来开发一种回顾性理性的学习算法，该算法采用 counterfactual regret minimization 策略，并能适用于任意给定的行为偏差集合，通过实验表明在不同的 deviation types 中，EFR 通常表现更好。

May, 2022

相关对局的回顾性和序贯理性

通过适应性算法的考虑以确保比修改行为所能达到的结果更好，我们可以基于相关学习动态产生新的博弈理论分析，这样做比基于平衡策略算法更加有效，因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型，证明了没有可行的概念包含所有其他类型，并引出了一个追溯与规避策略算法的平衡类别的定义。

Dec, 2020

行为受限零和博弈中的遗憾最小化

使用 CFR 框架开发算法以解决行为约束的 extensive-form games，同时计算近似 Nash 平衡改进。比标准算法更好，收敛速率与最先进的 Nash 平衡计算算法相当。

Nov, 2017

具有不完全回忆的拓展形式博弈中的无悔学习

本文提出无法完全回忆的游戏中，针对使用 CFR 算法的一般类游戏的第一个遗憾上限及其不适用性，同时证明使用 CFR 在任何抽象类游戏中都适用，且在三种情况下证明不完全回忆可用于交换少量遗憾和显著降低内存。

May, 2012

广义博弈中的最后迭代收敛

本文研究了基于遗憾的算法在连续游戏中寻找近似的纳什均衡，针对反事实遗憾最小化（CFR）算法存在的表示收敛的缺陷，提出了一些基于树形复合结构的乐观遗憾最小化算法，并给出了实验证明其在求解连续游戏时的有效性。

Jun, 2021

广义博弈中简单非耦合无悔学习动态

本文研究了在完备回忆且 n 个玩家泛化和值和的博弈中，如何从简单无耦合的后悔最小化学习动力学中导出 EFCE。研究结果提供了第一个收敛于 EFCE 的无耦合动力学，为该领域解决了开放性问题。

Apr, 2021

扩张式形式博弈中的扩张距离产生函数乐观遗憾最小化

研究了在广泛形式博弈中最小化后悔和计算纳什均衡的乐观后悔最小化算法的性能，研究了扩展形式游戏距离生成函数的使用，证明了扩展欧几里德距离函数具有广义树片段的强凸性参数的第一个显式边界，提出了一种乐观算法可以优化计算效率，这在最小化后悔而不是计算纳什均衡时表现出很好的结果。

Oct, 2019

面向序列决策过程和广义博弈的在线凸优化

本文提出了一种称为 “laminar regret decomposition” 的新框架，该框架扩展了 CFR 算法，并使 regret minimization 能够适用于更广泛的决策点模型和损失函数模型。该框架适用于多种问题类型，例如：序贯决策制定、纳什均衡及其近似解、以及普遍化量子反应均衡。实验证明，该框架所开发的算法与 counterfactual regret minimization 相比，在计算纳什均衡时具有可比性，并且该方法是计算极大规模游戏中的量子反应均衡的第一个算法。此外，我们还展示了一种新类型的可伸缩对手利用方法。

Sep, 2018

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

双人零和博弈中智能体理性的大规模学习

这篇论文介绍了一种应用于实际情境下的框架，用于推断底层博弈参数，其中包括了基于决策理论的行为模型，用于学习复杂博弈中有理智的行为，并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。

Mar, 2019