基于线性函数逼近的纳什 Q 学习的有限样本保证

Mar, 2023

基于线性函数逼近的纳什 Q 学习的有限样本保证

Finite-sample Guarantees for Nash Q-learning with Linear Function Approximation

Pedro Cisneros-Velarde, Sanmi Koyejo

TL;DR本研究分析使用线性函数近似的 Nash Q-learning 在多智能体强化学习中学习构成 Nash 均衡的策略，并提供有限样本保证，表明其样本效率。研究发现，该方法的性能与单智能体强化学习相当，且比表格化算法的最佳结果差一个多项式差距。

Abstract

nash q-learning may be considered one of the first and most known algorithms in multi-agent reinforcement learning (MARL) for learning policies that constitute a →

nash q-learning multi-agent reinforcement learning nash equilibrium linear function approximation sample efficiency

发现论文，激发创造

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023

分布式 Q-learning 的有限时间分析

多智能体强化学习在分布式 Q 学习场景中的有限时间分析及样本复杂度结果

May, 2024

通过函数逼近证明的高效去中心化多智能体强化学习

提出了第一种能够在分布式系统下使用函数逼近算法解决多代理强化学习的方法，此算法总能输出马尔可夫序列最优解，并且实现了根据多样性相关均衡（CCE）找到Ɛ- 最优解的最优速率，同时，还提出了一种能够在多样性相关均衡（CCE）中找到策略类受限一致均衡的分布式算法。

Feb, 2023

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

在大状态空间中打破多智体的诅咒：独立线性函数逼近的马尔可夫博弈中的强化学习

我们提出了一种新模型独立线性马尔可夫游戏，用于具有大状态空间和大量代理的多代理强化学习，该模型具有独立线性函数逼近，并为其设计了新算法以学习 Markov 粗糙关联均衡和 Markov 相关均衡，其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展，从而打破了多代理的诅咒。

Feb, 2023

独立功能逼近的强化学习与马尔可夫博弈：在局部访问模型下改进的样本复杂度界限

学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题，最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际 Q 值来解决这个问题。我们介绍了一种新算法 Lin-Confident-FTRL，用于学习具有本地对模拟器访问能力的粗粒度相关均衡（CCE），并具有证明最优准确性界限 O（ϵ^-2）的可扩展性和抛弃了对动作空间的线性依赖。此外，我们对 Linear-Confident-FTRL 的分析广泛地推广了单机器人局部规划文献中的虚拟策略迭代技术，从而在假设对模拟器具有随机访问权时得到了一个新的计算有效的算法，并获得了更紧凑的样本复杂度界限。

Mar, 2024

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019