最小化差值的最优 $Q$ 学习与最近邻 | BriefGPT - AI 论文速递

Aug, 2023

最小化差值的最优 $Q$ 学习与最近邻

Minimax Optimal $Q$ Learning with Nearest Neighbors

Puning Zhao, Lifeng Lai

TL;DR该研究提出两种新的 Q 学习方法，以弥补 (Shah and Xie, 2018) 中收敛速率差异，其中一种是脱机方法，另一种是在线方法。尽管我们仍然使用最近邻方法估计 Q 函数，但算法与 (Shah and Xie, 2018) 有着关键的不同之处。特别地，在离散区域中，我们将核最近邻方法替换为直接最近邻方法。因此，我们的方法显著提高了收敛速率。此外，在高维状态空间中，时间复杂度也显著改善。我们的分析表明，脱机和在线方法都是极小极大速率最优的。

Abstract

$Q$ learning is a popular model free reinforcement learning method. Most of existing works focus on analyzing $Q$ learning for finite state and action spaces. If the state space is continuous, then the original $Q$ learning method can not be directly used. A modification of the original $Q$ learning method was proposed in (Shah and Xie, 2018), which estimate

q learning continuous state space convergence rate nearest neighbor approach offline and online methods

发现论文，激发创造

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

最优值估计中的实例最优性：通过方差缩减 Q 学习实现自适应

本文提出一个本地极小极大方法，分析了计算强化学习下的最优 $Q$ 值函数的实例特定行为，并提供一个针对 $Q$ 学习中困难问题和易解问题的有力解释。

Jun, 2021

Q-Learning 算法是否达到 Minimax 最优性？一种紧凑的样本复杂度分析

本文研究 Q-learning 同步和异步情况下的样本复杂性和子优秀性，并展示在异步情况下的样本复杂性更强，Q-learning 算法是严格亚最优的。

Feb, 2021

方差缩减 $Q$- 学习达到了最小极差优化

介绍和分析了一种方差减少的 Q-learning 方法，为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计，其采样数量与最小极值下界匹配。

Jun, 2019

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

通过分布偏移误差检查预示着的函数逼近 $Q$ 学习的可证明高效性

本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法，提出了 DSEC oracle 概念，该算法使用多项式数量的轨迹返回近似最优策略，并可用于设计和分析具有一般函数逼近的强化学习算法。

Jun, 2019

MinMaxMin Q 学习

MinMaxMin 是一种乐观的 Actor-Critic 算法，通过优先级经验回放的方式解决保守的强化学习算法中存在的过高估计偏差问题，实验证明 MinMaxMin 在所有测试任务中相比 DDPG、TD3 和 TD7 都能显著提高性能。

Feb, 2024

深度强化学习：凸优化方法

本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题，提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法，通过凸优化确保每个序列的权重得到最优化，针对稳定的非线性系统，证明了该算法的收敛性，并且训练得到的神经网络参数收敛到最优参数，两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。

Feb, 2024

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021