最近邻 Q 学习

NIPSFeb, 2018

Q-learning with Nearest Neighbors

Devavrat Shah, Qiaomin Xie

TL;DR该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Abstract

We consider model-free reinforcement learning for infinite-horizon discounted markov decision processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an

reinforcement learning markov decision processes nearest neighbor q-learning convergence rate sample complexity

发现论文，激发创造

最小化差值的最优 $Q$ 学习与最近邻

该研究提出两种新的 Q 学习方法，以弥补 (Shah and Xie, 2018) 中收敛速率差异，其中一种是脱机方法，另一种是在线方法。尽管我们仍然使用最近邻方法估计 Q 函数，但算法与 (Shah and Xie, 2018) 有着关键的不同之处。特别地，在离散区域中，我们将核最近邻方法替换为直接最近邻方法。因此，我们的方法显著提高了收敛速率。此外，在高维状态空间中，时间复杂度也显著改善。我们的分析表明，脱机和在线方法都是极小极大速率最优的。

Aug, 2023

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

使用线性可加特征的参数 Q 学习的样本最优解

该研究提出一种基于特征维度的参数 Q 学习算法，通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率，并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略，适用于大规模的马尔可夫决策过程。

Feb, 2019

针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法

提出了一种基于 EE-QL，结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法，实现了与最佳已知基于模型算法相似的学习速度。

Jun, 2020

Q-Learning 算法是否达到 Minimax 最优性？一种紧凑的样本复杂度分析

本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性，并展示在异步情况下的样本复杂性更强，Q-learning 算法是严格亚最优的。

Feb, 2021

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

方差缩减 $Q$- 学习达到了最小极差优化

介绍和分析了一种方差减少的 Q-learning 方法，为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计，其采样数量与最小极值下界匹配。

Jun, 2019

卷积投影：连续空间马尔可夫决策过程中强化学习的最佳样本复杂度

学习连续空间马尔可夫决策过程中的 ε- 最优策略问题，在具有光滑 Bellman 算子的一般类别中，通过使用正交三角多项式特征的简单的扰动最小二乘值迭代，并结合基于谐波分析的新型投影技术，实现了速率最优的样本复杂性。

May, 2024

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

度量空间中的高效无模型强化学习

本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法，利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法，无需使用黑盒规划预言机。

May, 2019