大规模零和博弈均衡计算的统一视角

AAAINov, 2014

大规模零和博弈均衡计算的统一视角

A Unified View of Large-scale Zero-sum Equilibrium Computation

Kevin Waugh, J. Andrew Bagnell

TL;DR本文研究如何在大型零和博弈中计算近似纳什均衡，提出两种方法：无悔在线学习和基于凸凹点公式的梯度方法，并尝试将两种方法进行整合。

Abstract

The task of computing approximate nash equilibria in large zero-sum extensive-form games has received a tremendous amount of attention due mainly to the Annual Computer Poker Competition. Immediately after its in

nash equilibria extensive-form games online learning gradient method saddle-point formulation

发现论文，激发创造

竞争性梯度下降

本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法，该算法基于正则化双线性局部逼近的纳什均衡，避免了交替梯度下降中出现的振荡和发散，而且在达到指数级 (局部) 收敛性的同时，其收敛和稳定性的性质对于玩家之间的强交互是稳健的，具有更快的收敛速度。

May, 2019

近似廣泛型完美均衡的平滑方法

通过发展更高效和可扩展的算法，使用稀疏迭代方法的行为扰动来解决不完全信息博弈中的纳什均衡问题，从而实现最优均衡，但不排除博弈树中未到达的子树中存在次优策略。通过使用平滑方法，能够计算出一个近似的 extensive-form 完美均衡，以解决经典的纳什均衡算法中存在的精度问题。

May, 2017

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

乐观无悔动力加速

本论文研究了如何利用在线学习动态算法来求解具有 Nash 均衡约束的凸凹博弈问题，通过引入乐观学习机制使得该方法求解速度得到了显著提升，同时还证明了在强凸平滑函数的情况下该方法的加速收敛性。

Jul, 2018

非凹博弈中可解的局部均衡

在非凸博弈中，通过在线梯度下降和无悔学习等方法可以有效地收敛到具有光滑效用函数的博弈中的局部均衡状态。

Mar, 2024

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

策略优化在零和线性二次博弈中可以证明收敛到纳什均衡

研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性，开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果，是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。

May, 2019

连续对局中的最小信息学习

通过引入一种随机学习过程 - 阻尼梯度逼近，我们在本文中为具有连续行动集的博弈设计了一种学习过程，它是基于收益的，因此不需要玩家有策略上的认知或关于游戏的知识，我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。

Jun, 2018

用于零和平衡点求解的稀疏线性规划

该论文提出了一种新颖的方法利用线性规划解决计算均衡的问题，这种方法比以往的算法更高效，并可以用于解决大型的信息不完备博弈，特别是在极限状态下。

Jun, 2020

马尔可夫博弈中独立学习和稀疏均衡计算的难度

本文研究了去中心化多智能体强化学习问题中的不后悔算法，并探讨了自主学习能否在标准 Markov 博弈框架中实现无后悔学习。结果表明，无论是已知还是未知的博弈，该问题都无法以多项式时间实现无后悔学习，该文贡献了理论证明支持，提出了基于集聚方法的创新性应用，并发现了 SparseCCE 问题的下限，从而说明了近年来学者对于该问题的研究成果，并对博弈理论和强化学习算法研究方向提出了新的思考。

Mar, 2023