我们在玩什么游戏？正常形式与广义形式博弈中的端到端学习

May, 2018

我们在玩什么游戏？正常形式与广义形式博弈中的端到端学习

What game are we playing? End-to-end learning in normal and extensive form games

Chun Kai Ling, Fei Fang, J. Zico Kolter

TL;DR本文提出一种基于可微分学习框架的扩展型博弈求解方法，包括一个求解量化应答均衡点的迭代算法和一个反向传播算法，该方法能够通过深度学习模型端到端地学习博弈模型，我们在多个博弈场景下进行了验证。

Abstract

Although recent work in ai has made great progress in solving large, zero-sum, extensive-form games, the underlying assumption in most past work is that the parameters of the game itself are known to the agents. This paper deals with the relatively under-explored but equally important

ai game theory differentiable learning primal-dual newton method deep network architectures

发现论文，激发创造

双人零和博弈中智能体理性的大规模学习

这篇论文介绍了一种应用于实际情境下的框架，用于推断底层博弈参数，其中包括了基于决策理论的行为模型，用于学习复杂博弈中有理智的行为，并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。

Mar, 2019

端到端游戏学习和干预

本文提出了一个通过学习和干预博弈进行端到端优化的框架，将博弈均衡作为个体层级进行整合，并提出了两种不同的方法用于学习个体的收益函数并在解决变分不等式的过程中进行反向传播。

Oct, 2020

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

连续对局中的最小信息学习

通过引入一种随机学习过程 - 阻尼梯度逼近，我们在本文中为具有连续行动集的博弈设计了一种学习过程，它是基于收益的，因此不需要玩家有策略上的认知或关于游戏的知识，我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。

Jun, 2018

n 个玩家可微分游戏的力学

本文介绍了用于解决许多深度学习模型中的问题的 Symplectic Gradient Adjustment (SGA) 算法，并提出了 Hamiltonian game 概念，使得 SGA 算法具有一定的保证，并在 GANs 等更广泛的游戏中表现出着和其他算法竞争力相当的性能。

Feb, 2018

具有不完全信息的广义博弈的近最优学习

本文提出两种新算法：平衡在线镜像下降和平衡对策后悔最小化，通过整合平衡探索策略到它们的经典对应物算法，解决学习不完美信息的广义零和游戏的近似 Nash 均衡问题。同时，将结果推广到学习多人游戏的粗略相关均衡。

Feb, 2022

大规模零和博弈均衡计算的统一视角

本文研究如何在大型零和博弈中计算近似纳什均衡，提出两种方法：无悔在线学习和基于凸凹点公式的梯度方法，并尝试将两种方法进行整合。

Nov, 2014

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

应对策略限制的大规模扩展博弈求解

研究表明，通过推广反事实遗憾最小化，我们可以解决一般约束下的最优策略问题，并且该算法可广泛应用于复杂博弈中，如安全博弈中的风险缓解和扑克游戏中的对手建模。

Sep, 2018

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021