零和马尔可夫博弈中的价值函数逼近

Dec, 2012

零和马尔可夫博弈中的价值函数逼近

Value Function Approximation in Zero-Sum Markov Games

Michail Lagoudakis, Ron Parr

TL;DR研究了在零和 Markov 博弈中的价值函数逼近问题，提出了适用于 Markov 博弈的强化学习算法，并针对在两人同时进行移动的特殊问题，给出了 LSTD 和时间差分学习的线性价值函数逼近的收敛保障，通过 LSPI 算法，将该算法应用于足球领域和流量控制问题中，并证明了价值函数逼近在 Markov 博弈中的可行性。

Abstract

This paper investigates value function approximation in the context of zero-sum markov games, which can be viewed as a generalization of the Markov decision process (MDP) framework to the two-agent case. We gener

value function approximation markov games reinforcement learning optimal stopping problem linear value function approximation

发现论文，激发创造

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

零和马尔可夫博弈中通用的函数逼近

本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈，在研究中提出了可行的算法，包括基于模型的算法和无模型算法，并且在状态 - 动作对数 $d$ 线性特征的情况下取得了比现有算法更好的效果，同时提出了最小极小规模的模型维度等概念来解决抽样复杂度的问题，最终得出了在模型上算法抽样复杂度可以通过将见证人等级推广到马尔科夫博弈来边界化。

Jul, 2021

无模型改进的零和马尔科夫博弈的高效样本算法

为了解决两个玩家零和马尔可夫博弈问题，在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的 Q 学习算法，我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度，进而首次证明了无模型算法在与模型有关的 $H$ 上的依赖性上能够达到相同的最优性。

Aug, 2023

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度 Q 学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

零和马尔可夫博弈强化学习的一种新政策迭代算法

本文提出了一种对于零和马尔可夫游戏的学习策略 ——lookahead 策略，该策略使用简单的 naive policy iteration，在计划阶段实现高效的收敛，进一步阐述了在使用我们的算法进行计算规划时的时间复杂度和样本复杂度界限。

Mar, 2023

关于回合制零和马尔可夫博弈的强化学习

本文提出了一种基于强化学习的方法，结合 “探索，策略改进和监督学习”，以找到与纳什均衡相关的价值函数和策略。通过实验证明了该方法在特定情况下可以在近似值方面找到纳什均衡。

Feb, 2020

两人零和马尔可夫博弈的极小极大 Q - 学习的有限时间分析：切换系统方法

本文旨在研究应用于两人零和马尔科夫博弈中的 Q-learning 算法的有限时间分析。

Jun, 2023

学习双人混合马尔可夫博弈：核函数逼近和相关均衡

本论文提出了一种基于优化原则的在线学习算法，通过在函数空间中最小化对偶差来寻找 Nash 均衡点，在马尔科夫博弈中进行非线性函数逼近，解决了高维函数空间中的探索问题，并扩展了几种算法，其中一个可以实现更紧的遗憾上界，另一个可以应用于神经网络函数逼近的模型错误说明。

Aug, 2022

基于模型的自我对弈强化学习的严密分析

本文针对多智能体马尔科夫博弈提出了一种基于模型的算法 Nash-VI，在理论上证明其具有较高的样本利用率，并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法，输出单个 Markov 策略且易于存储和执行。

Oct, 2020

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023