零和马尔可夫游戏中的可微分仲裁

Feb, 2023

零和马尔可夫游戏中的可微分仲裁

Differentiable Arbitrating in Zero-sum Markov Games

Jing Wang, Meichen Song, Feng Gao, Boyi Liu, Zhaoran Wang...

TL;DR本文研究如何扰动由两个玩家组成的零和马尔可夫博弈的奖励来诱导期望的纳什均衡。提出了一种反向传播方案，用于在给定奖励函数下求解纳什均衡，并通过黑盒求解器展示了框架的收敛性和在两种多智能体强化学习环境中的成功应用。

Abstract

We initiate the study of how to perturb the reward in a zero-sum markov game with two players to induce a desirable nash equilibrium, namely arbitrating. Such a problem admits a →

zero-sum markov game nash equilibrium bi-level optimization backpropagation multi-agent reinforcement learning

发现论文，激发创造

极小改动 Markov 游戏以获得任意 Nash 均衡和价值

研究了游戏修改问题，其中一个仁慈的游戏设计者或恶意对手修改了零和马尔可夫博弈的回报函数，使得目标确定性或随机策略配置成为唯一的马尔可夫完美纳什均衡，并且其价值在目标范围内，以最小化修改成本。我们表征了可以作为某个游戏唯一均衡的策略配置集合，并通过建立充分和必要条件来确定成功安装的可能性。我们提出了一种高效的算法，通过求解一个带有线性约束的凸优化问题，然后进行随机扰动，以获得具有近似最优成本的修改计划。

Nov, 2023

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

用于两人零和马尔科夫博弈的正则化梯度下降 / 上升算法

本文提出了一种用于在马尔可夫博弈中寻找纳什均衡的新方法，该方法结合梯度下降和熵正则化，获得了更好的收敛性能，并证明了该算法在合适的正则化参数选择下可以收敛到原问题的纳什均衡。

May, 2022

一种两人零和博弈的平均场分析

使用梯度下降法的粒子动态法可以在高维度的情况下找到两个玩家零和持续游戏中的混合纳什均衡，该方法对于训练对抗生成网络的混合模型是有效的。

Feb, 2020

零和马尔可夫博弈中政策优化的更快收敛

本文提出了一种基于 OMWU 方法的单环路政策优化算法，并在二人零和马尔可夫博弈中，通过控制正则化的程度，实现了有限时间的最后一次线性收敛到达量子响应均衡点，并在全信息离散设置中实现了收敛结果。

Oct, 2022

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

竞争性梯度下降

本文提出了一种用于计算竞争性双人游戏纳什均衡的新算法，该算法基于正则化双线性局部逼近的纳什均衡，避免了交替梯度下降中出现的振荡和发散，而且在达到指数级 (局部) 收敛性的同时，其收敛和稳定性的性质对于玩家之间的强交互是稳健的，具有更快的收敛速度。

May, 2019

深度虚拟博弈对多智能体游戏中马尔科夫纳什均衡的寻找

提出了一种基于深度神经网络的算法来识别一般大型 $N$ 人随机微分博弈的马尔可夫纳什均衡，该算法的核心思想是将 $N$ 人游戏重塑为 $N$ 个解耦决策问题，并通过迭代解决。

Dec, 2019

零和马尔可夫博弈的分散式 Q 学习

本研究在非协调控制下，针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态，该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点，并且可以有效应对非固定环境的挑战。

Jun, 2021

连续游戏中基于梯度的学习

本研究提出了一个广泛适用于多智能体领域的竞争性基于梯度的学习模型，并使用动态系统理论对其进行了分析，对于有限和无限游戏，我们表征了一组非常小的局部纳什均衡，这组均衡将被激活，如果每个智能体采用基于梯度的学习算法。同时研究了基于算法自身构建的不属于纳什均衡的收敛策略在有限和无限游戏中的存在性，这可能解释了在零和游戏中，应用相关算法时出现的困难。最后，为了验证理论贡献，我们给出了一个示例验证。

Apr, 2018