使用随机策略网络查找连续动作游戏的混合策略均衡点（无需使用梯度）

Nov, 2022

使用随机策略网络查找连续动作游戏的混合策略均衡点（无需使用梯度）

Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks

Carlos Martin, Tuomas Sandholm

TL;DR本文提出一种基于零阶优化技术、结合平滑梯度估计器和均衡查找动态的方法来解决没有梯度信息的连续行动博弈问题，采用神经网络建模玩家策略，特别是采用随机策略网络来建模混合策略。实验表明，该方法可以快速找到高质量的近似均衡。此外，研究表明，输入噪声的维度对方法的性能至关重要。这是第一篇在未知任何梯度信息的情况下解决了不受限制的连续行动博弈的研究。

Abstract

We study the problem of computing an approximate nash equilibrium of continuous-action game without access to gradients. Such game access is common in reinforcement learning settings, where the environment is typically treated as a black box. To tackle this problem, we apply

approximate nash equilibrium continuous-action games zeroth-order optimization artificial neural networks mixed strategies

发现论文，激发创造

连续对局中的最小信息学习

通过引入一种随机学习过程 - 阻尼梯度逼近，我们在本文中为具有连续行动集的博弈设计了一种学习过程，它是基于收益的，因此不需要玩家有策略上的认知或关于游戏的知识，我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。

Jun, 2018

一种两人零和博弈的平均场分析

使用梯度下降法的粒子动态法可以在高维度的情况下找到两个玩家零和持续游戏中的混合纳什均衡，该方法对于训练对抗生成网络的混合模型是有效的。

Feb, 2020

策略梯度算法在线性二次博弈中没有收敛保证

本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究，经由分析线性二次博弈的梯度播放，得到该算法并不存在全局收敛到 Nash 平衡点的保证，且通过实验发现此类情况并不少见。

Jul, 2019

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

通用和随机博弈纳什均衡学习的去中心化策略梯度

研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念，并提出了两种算法，一种是针对精确伪梯度的，另一种是针对未知伪梯度的。

Oct, 2022

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本，我们提出了一种新的 Q-learning 类型算法，该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明，在某些条件下，通过更新正则化的 Q 函数，该算法收敛于纳什平衡，并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡，同时展现了比现有算法更快的加速效果。

Sep, 2020

零和马尔可夫游戏中的可微分仲裁

本文研究如何扰动由两个玩家组成的零和马尔可夫博弈的奖励来诱导期望的纳什均衡。提出了一种反向传播方案，用于在给定奖励函数下求解纳什均衡，并通过黑盒求解器展示了框架的收敛性和在两种多智能体强化学习环境中的成功应用。

Feb, 2023

弱可达情况下的零和马尔可夫博弈纳什均衡学习

通过利用 Tsallis 熵正则化的值迭代方法，我们提出了一种合理且收敛的算法，在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡，仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对，从而明显减弱了过去的假设。我们的分析利用了负漂移不等式，并引入了 Tsallis 熵的新特性，这些特性具有独立的研究价值。

Dec, 2023

均场两人零和游戏的可证收敛准静态动力学

本文研究如何找到混合纳什均衡来解决均场双人零和博弈问题，提出了基于 Wasserstein 梯度流的动态和基于 Langevin 梯度下降的方法，并在不同问题上进行了测试。

Feb, 2022