该研究提出两种新的 Q 学习方法,以弥补 (Shah and Xie, 2018) 中收敛速率差异,其中一种是脱机方法,另一种是在线方法。尽管我们仍然使用最近邻方法估计 Q 函数,但算法与 (Shah and Xie, 2018) 有着关键的不同之处。特别地,在离散区域中,我们将核最近邻方法替换为直接最近邻方法。因此,我们的方法显著提高了收敛速率。此外,在高维状态空间中,时间复杂度也显著改善。我们的分析表明,脱机和在线方法都是极小极大速率最优的。
Aug, 2023
本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度,提出了一种非参数 Q 学习算法,其样本复杂度优化到 ε 和核心复杂度的阶数,这是针对这种普遍模型的首个具有有限样本复杂度的结果。
Feb, 2023
该研究提出一种基于特征维度的参数 Q 学习算法,通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率,并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略,适用于大规模的马尔可夫决策过程。
Feb, 2019
提出了一种基于 EE-QL,结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法,实现了与最佳已知基于模型算法相似的学习速度。
Jun, 2020
本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性,并展示在异步情况下的样本复杂性更强,Q-learning 算法是严格亚最优的。
Feb, 2021
本文提出了一种有限时间的神经 Q 学习算法,其中数据是从 Markov 决策过程中生成的,动作价值函数由 Deep ReLU 神经网络逼近,我们证明了如果神经功能逼近器被足够过度参数化,神经 Q 学习可以找到具有 O(1 / 根号 T)收敛速度的最优策略,并且该结果是对非 i.i.d 数据假设的首次有限时间分析。
Dec, 2019
介绍和分析了一种方差减少的 Q-learning 方法,为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计,其采样数量与最小极值下界匹配。
Jun, 2019
学习连续空间马尔可夫决策过程中的 ε- 最优策略问题,在具有光滑 Bellman 算子的一般类别中,通过使用正交三角多项式特征的简单的扰动最小二乘值迭代,并结合基于谐波分析的新型投影技术,实现了速率最优的样本复杂性。
May, 2024
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法,利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法,无需使用黑盒规划预言机。
May, 2019