连续游戏中基于梯度的学习

Apr, 2018

On Gradient-Based Learning in Continuous Games

Eric Mazumdar, Lillian J. Ratliff, S. Shankar Sastry

TL;DR本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Abstract

We formulate a general framework for competitive gradient-based learning that encompasses a wide breadth of multi-agent learning algorithms, and analyze the limiting behavior of competitive →

gradient-based learning multi-agent learning nash equilibria zero-sum games policy gradient

发现论文，激发创造

竞争性梯度下降

本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法，该算法基于正则化双线性局部逼近的纳什均衡，避免了交替梯度下降中出现的振荡和发散，而且在达到指数级 (局部) 收敛性的同时，其收敛和稳定性的性质对于玩家之间的强交互是稳健的，具有更快的收敛速度。

May, 2019

连续对局中的最小信息学习

通过引入一种随机学习过程 - 阻尼梯度逼近，我们在本文中为具有连续行动集的博弈设计了一种学习过程，它是基于收益的，因此不需要玩家有策略上的认知或关于游戏的知识，我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。

Jun, 2018

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

通用和随机游戏的梯度下降方案研究

本文研究一种梯度方案对两个玩家的随机博弈进行求解，并在模拟中显示该方案确实收敛到 Nash 均衡解。但如果只在目标函数的全局最小值处才能达到最优解，当渐近接近时仅能到达局部极小值，本文阐明了梯度方案收敛于广义和随机游戏中纳什均衡的重要必要条件。

Jul, 2015

n 个玩家可微分游戏的力学

本文介绍了用于解决许多深度学习模型中的问题的 Symplectic Gradient Adjustment (SGA) 算法，并提出了 Hamiltonian game 概念，使得 SGA 算法具有一定的保证，并在 GANs 等更广泛的游戏中表现出着和其他算法竞争力相当的性能。

Feb, 2018

梯度动力学在迭代一般和游戏中的 Nash 收敛

本研究通过对二人博弈中多智能体学习策略的分析，提出了一个令人惊讶的结论 —— 不论策略是否收敛，智能体的平均收益都会收敛于纳什均衡，在电子商务和拍卖中具有一定的适用性。

Jan, 2013

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

斯塔克贝格博弈中的学习动态收敛

本文研究了斯塔克伯格博弈中学习动态的收敛性，并提出了一种基于梯度的学习更新规则，用于训练生成对抗网络。

Jun, 2019

可微分的游戏机制

本文针对深度学习建立在梯度下降收敛局部极小值的基础上这一保证在生成对抗网络等存在多个交互损失的情况下失效问题，研究了 N 人不可微分博弈的动态性，提出了一种新的算法 Symplectic Gradient Adjustment (SGA) 可以在更一般的情境下应用，并有基于理论保证的鲁棒性。

May, 2019

序列零和线性二次动态博弈的策略梯度全局收敛

该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题，并证明了如果采用自然梯度下降 / 上升，该算法具有对纳什均衡的全局次线性收敛性；此外，如果领导者采用拟牛顿策略，该算法将具有全局二次收敛性。

Nov, 2019