两步极小极大 Q-learning 算法用于双人零和马尔可夫博弈

Jul, 2024

两步极小极大 Q-learning 算法用于双人零和马尔可夫博弈

A Two-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

Shreyas S R, Antony Vijesh

TL;DR提出了一种有趣的迭代过程来解决两个玩家零和马尔可夫博弈，通过将问题表示为极小极大马尔可夫博弈，并对求解马尔可夫决策问题的两步Q学习算法进行适当修改，理论上获得了所提出迭代过程的有界性。利用随机逼近的结果，理论上获得了所提出的两步极小极大Q学习的几乎必然收敛性，具体而言，在模型信息未知的情况下，该算法以概率1收敛于博弈论最优值。数值模拟证实了所提出算法的有效性和易于实施性。

Abstract

An interesting iterative procedure is proposed to solve a two-player zero-sum markov games. First this problem is expressed as a min-max markov g

发现论文，激发创造

基于特征的Q学习在双人随机博弈中的应用

提出在给定特征空间中嵌入转移函数的二人零和随机博弈中，通过采样逼近纳什均衡策略的二人Q-learning算法，已证明可使用与特征数线性相关的样本大小找到ε最优策略；进一步改进算法的样本效率，采用方差约减、单调性保持和双侧策略逼近等技术来加速算法，证明了该算法最多只需要使用O~(K/(ε^2(1-γ)^4))个样本即可以高概率找到ε最优策略，其中K是特征数，γ是折扣系数；算法的样本、时间和空间复杂度与游戏的原始维度无关。

Jun, 2019

解决折扣随机二人博弈问题的近似最优时间和样本复杂度

本文研究解决折扣二人零和随机游戏的采样复杂度，并提出一种计算策略的算法以及推广现有的MDP算法到多代理设置。

Aug, 2019

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

使用自我博弈的近乎最优强化学习

本文提出了楽观的Nash Q-learning算法，并使用了新的Nash V-learning算法，解决了在马尔可夫博弈环境中的奖励学习优化问题，且这个算法的采样复杂度比现有算法还要低.

Jun, 2020

零和马尔可夫博弈中通用的函数逼近

本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈，在研究中提出了可行的算法，包括基于模型的算法和无模型算法，并且在状态-动作对数$d$线性特征的情况下取得了比现有算法更好的效果，同时提出了最小极小规模的模型维度等概念来解决抽样复杂度的问题，最终得出了在模型上算法抽样复杂度可以通过将见证人等级推广到马尔科夫博弈来边界化。

Jul, 2021

两人零和马尔可夫博弈的极小极大Q-学习的有限时间分析：切换系统方法

本文旨在研究应用于两人零和马尔科夫博弈中的Q-learning算法的有限时间分析。

Jun, 2023

无模型改进的零和马尔科夫博弈的高效样本算法

为了解决两个玩家零和马尔可夫博弈问题，在多智能体强化学习的理论研究中引起了越来越多的关注。通过提出一种无模型的基于阶段的Q学习算法，我们展示了该算法能够与最佳的有模型算法达到相同的样本复杂度，进而首次证明了无模型算法在与模型有关的$H$上的依赖性上能够达到相同的最优性。

Aug, 2023

零和随机博弈中带有函数逼近的两时间尺度 Q-Learning

我们提出了一种两时间尺度Q学习算法，采用函数逼近，以找到两个玩家之间公平、收敛、理性且对称的纳什均衡。我们的方法在线性函数逼近的特殊情况下，建立了无限采样边界，从而对这类随机博弈中收敛到纳什均衡所需的样本量提供了多项式的上界。

Dec, 2023

FM3Q：分解的多智能体最小最大 Q 学习用于双队零和马尔科夫博弈

我们提出了个体-全局-极小化（IGMM）原则，通过在2t0sMGs中的Q函数确保两队极小化行为与个体贪婪行为之间的一致性。基于此，我们提出了一种新的多智能体强化学习框架，分解多智能体极小化Q函数成个体的，并迭代求解2t0sMGs中满足IGMM条件的极小化Q函数。另外，我们提出了一种使用神经网络实现FM3Q和获得两队选手的确定性和分散极小化策略的在线学习算法，并提供了理论分析证明了FM3Q的收敛性。实验结果表明，我们使用三个环境来评估FM3Q的学习效率和最终性能，并展示了其在2t0sMGs上的优越性。

Feb, 2024

二步Q-Learning

该研究提出了一种新的无偏置、无重要性采样的两步离策略Q学习算法，并通过适当的假设证明，该算法的迭代是有界的，并且几乎肯定收敛于最优Q值。研究还探讨了两步Q学习的平滑版本的收敛性分析，即通过用对数-和-指数函数代替最大函数。该算法具有鲁棒性和易于实现性，并在基准问题上进行了实验验证，如轮盘问题、最大化偏置问题和随机生成的马尔可夫决策过程，并将其与现有文献中的方法进行了比较。数值实验证明了两步Q学习及其平滑变体的卓越性能。

Jul, 2024