从批量数据学习一般和马尔可夫博弈的纳什均衡

Jun, 2016

从批量数据学习一般和马尔可夫博弈的纳什均衡

Learning Nash Equilibrium for General-Sum Markov Games from Batch Data

Julien Pérolat, Florian Strub, Bilal Piot, Olivier Pietquin

TL;DR本文研究如何通过神经网络模型，在多人马尔可夫博弈中学习纳什均衡，解决了多人非零和博弈策略复杂难以获得的问题，并提出了新的图像质量度量方法。

Abstract

This paper addresses the problem of learning a nash equilibrium in $\gamma$-discounted multiplayer general-sum markov games (MG). A key component of this model is the possibility for the players to either collabo

nash equilibrium markov games multiplayer games collaboration neural network

发现论文，激发创造

动态定价中 n 人马尔可夫博弈的近似纳什均衡学习

本文研究了具有竞争性的马尔可夫游戏中的 Nash 均衡学习，使用了一种新的无模型方法找到近似 Nash 均衡，其中策略 - ε 对应性和状态至 ε- 最小策略是用神经网络表示的。在动态价格领域，可以学习到近似的 Nash 均衡。

Jul, 2022

何时才能高效学习具有多个玩家的广义和马尔可夫博弈？

本文探讨了多人博弈中学习的样本复杂性问题，并设计算法在样本复杂度多项式级别下，求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡，同时提出了针对特定条件下的学习算法，显著提高了现有算法的效率和精度。

Oct, 2021

在两队零和博弈中收敛到纳什均衡

研究内容涵盖电子竞技中的机器学习，多代理生成对抗网络的表现力，以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏，对在线学习算法的能力进行了讨论，并提出了一个基于控制论技术的一阶方法用于解决该类问题，该方法能够在某些条件下享有局部收敛性。

Nov, 2021

一种两人零和博弈的平均场分析

使用梯度下降法的粒子动态法可以在高维度的情况下找到两个玩家零和持续游戏中的混合纳什均衡，该方法对于训练对抗生成网络的混合模型是有效的。

Feb, 2020

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020

多人随机博弈中的学习

本文研究多人随机博弈中同时学习的问题，通过生成算法获得相关均衡，包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium，并提供了一些能够多项式时间内解决的特殊情况。

Oct, 2022

去中心化一般和马尔可夫博弈中具有可证明效率的强化学习

本文提出了一种多智能体强化学习算法，可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略，并且算法是完全分散的，智能体只有本地信息，并不知道其他智能体的存在。

Oct, 2021

强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗？

研究了带有领导者和追随者的多人普遍和马尔可夫博弈，关注追随者为短视的情况，在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中简单应用，并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性，为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。

Dec, 2021

通用和随机博弈纳什均衡学习的去中心化策略梯度

研究了一种具有未知转移概率密度函数的一般和随机游戏的纳什平衡学习。介绍一种加权渐近纳什均衡的概念，并提出了两种算法，一种是针对精确伪梯度的，另一种是针对未知伪梯度的。

Oct, 2022