连续对局中的最小信息学习

Jun, 2018

Learning with minimal information in continuous games

Sebastian Bervoets, Mario Bravo, Mathieu Faure

TL;DR通过引入一种随机学习过程 - 阻尼梯度逼近，我们在本文中为具有连续行动集的博弈设计了一种学习过程，它是基于收益的，因此不需要玩家有策略上的认知或关于游戏的知识，我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。

Abstract

We introduce a stochastic learning process called the dampened gradient approximation process. While learning models have almost exclusively focused on finite games, in this paper we design a learning process for games with →

stochastic learning process dampened gradient approximation process continuous action sets convergence to nash equilibrium strategic complements

发现论文，激发创造

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018

使用随机策略网络查找连续动作游戏的混合策略均衡点（无需使用梯度）

本文提出一种基于零阶优化技术、结合平滑梯度估计器和均衡查找动态的方法来解决没有梯度信息的连续行动博弈问题，采用神经网络建模玩家策略，特别是采用随机策略网络来建模混合策略。实验表明，该方法可以快速找到高质量的近似均衡。此外，研究表明，输入噪声的维度对方法的性能至关重要。这是第一篇在未知任何梯度信息的情况下解决了不受限制的连续行动博弈的研究。

Nov, 2022

学习控制未知强单调博弈

我们提出了一种简单的算法，通过在线调整受控系数来学习将博弈的纳什均衡点转移到符合线性约束，而不需要知道奖励函数或行动集，从而提供具有概率 1 保证的收敛性以满足目标线性约束的纳什均衡集合，并为该算法提供了均方收敛速度为 O (t^{-1/4}) 的界限。我们演示了该算法在全局二次代价优化和资源分配博弈中实现负载平衡的应用场景的模拟结果。

Jun, 2024

竞争性梯度下降

本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法，该算法基于正则化双线性局部逼近的纳什均衡，避免了交替梯度下降中出现的振荡和发散，而且在达到指数级 (局部) 收敛性的同时，其收敛和稳定性的性质对于玩家之间的强交互是稳健的，具有更快的收敛速度。

May, 2019

多人随机博弈中的学习

本文研究多人随机博弈中同时学习的问题，通过生成算法获得相关均衡，包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium，并提供了一些能够多项式时间内解决的特殊情况。

Oct, 2022

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021

斯塔克贝格博弈中的学习动态收敛

本文研究了斯塔克伯格博弈中学习动态的收敛性，并提出了一种基于梯度的学习更新规则，用于训练生成对抗网络。

Jun, 2019

通用和随机博弈纳什均衡学习的去中心化策略梯度

研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念，并提出了两种算法，一种是针对精确伪梯度的，另一种是针对未知伪梯度的。

Oct, 2022

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

凹函数 $N$ 人博弈中的赌徒学习

研究了非协同凹性博弈中以赌徒反馈为学习手段的长期行为，证明了采用镜像下降算法的不懊悔学习算法在满足标准单调性条件下能以概率 1 收敛于 Nash 均衡，并推导出了其收敛速率的上界。

Oct, 2018