基于神经网络函数逼近的 Q 学习的有限时间分析

Dec, 2019

基于神经网络函数逼近的 Q 学习的有限时间分析

A Finite-Time Analysis of Q-Learning with Neural Network Function Approximation

Pan Xu, Quanquan Gu

TL;DR本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Abstract

q-learning with neural network function approximation (neural q-learning for short) is among the most prevalent deep →

q-learning neural network reinforcement learning convergence rate finite-time analysis

发现论文，激发创造

改进的有限时间分析：基于深度神经网络的时差学习

本文基于非线性的动作价值逼近，对具有神经网络函数参数化的时序差异（TD）学习算法进行改进的有限时间分析，得到了一种改进的新的样本复杂度 Ο̃(ε^(-1))，在马尔可夫采样下取得了 Ο̃(ε^(-1)) 的复杂度，相比现有文献中已知的 Ο̃(ε^(-2)) 复杂度是第一次实现的研究。

May, 2024

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

基于 Whittle 指数的有限时间分析：带有神经网络函数逼近的不安定多臂赌博机上的 Q 学习

基于神经网络函数逼近的 Whittle 指数的 Q - 学习算法 Neural-Q-Whittle 解决不断变化的多臂赌博机问题，通过耦合两个时间尺度的 Q - 函数和 Whittle 指数，提供了 Neueral-Q-Whittle 的收敛速率为 O (1/k^(2/3)) 的有限时间分析。

Oct, 2023

深度 Q 学习算法瓶颈的诊断

本研究通过实验调查了 Q-learning 方法在深度强化学习中的潜在问题，并提出了基于神经网络结构的新型采样方法，在高维连续控制领域中获得了显着的改进。

Feb, 2019