关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

Nov, 2022

关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

On the Global Convergence of Fitted Q-Iteration with Two-layer Neural Network Parametrization

Mudit Gaur, Vaneet Aggarwal, Mridul Agarwal

TL;DR本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法，通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function，证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。

Abstract

deep q-learning based algorithms have been applied successfully in many decision making problems, while their theoretical foundations are not as well understood. In this paper, we study a fitted q-iteration with

deep q-learning fitted q-iteration relu neural network sample complexity q-function estimation

发现论文，激发创造

关于自然演员 - 评论家算法与双层神经网络参数化的全局收敛

本文探讨利用神经网络代表评论家的自然演员评论算法的研究，并建议了一种涉及通过凸优化问题估计每个迭代中的 Q 函数的 2 层评论家参数化的自然演员评论算法，证明了我们提出的方法达到了样本复杂度的～O (1 / (ε^4 (1-γ)^4))，适用于可数状态空间，不需要线性或低秩结构的 MDP。

Jun, 2023

深度强化学习：凸优化方法

本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题，提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法，通过凸优化确保每个序列的权重得到最优化，针对稳定的非线性系统，证明了该算法的收敛性，并且训练得到的神经网络参数收敛到最优参数，两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。

Feb, 2024

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

关于具有 $ε$- 贪心探索的 Deep Q-Networks 的收敛性和样本复杂度分析

该论文通过理论分析探讨了深度强化学习中的深度 Q 网络（DQN）和 ε- 贪心探索。论文提供了对实际情况下采用 ε- 贪心策略的 DQN 的首个理论收敛性和样本复杂度分析，并证明了带有递减 ε 的迭代过程能够几何收敛到最优 Q 值函数。实验验证了论文中得出的理论结论对 DQN 的有效性。

Oct, 2023

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

关于学习超参数化神经网络的函数逼近视角

研究了使用梯度下降法在过度参数化的双层神经网络中训练，证明了在足够过度参数化的条件下，GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$，并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件，介绍了适用于球面上的多项式的一般结果的应用

May, 2019

确定性系统中基于函数逼近的无神论 Q 学习：逼近误差和样本复杂度的严格界限

研究了确定性系统中基于函数逼近的 agnostic Q-learning 问题，并提出了一种新颖的递归算法，证明了采用该算法可以找到最优策略，同时满足多项约束条件。

Feb, 2020

批量强化学习中的 Q * 逼近算法：一个理论比较

本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证，并与传统的迭代方法进行了比较，证明了这些方法可以通过估计贝尔曼误差，仅依靠批数据和输出静态策略的算法，享受与任务无关的线性迭代时间性质。其中一种算法使用了新颖而明确的重要性加权校正，以克服贝尔曼误差估计中的 “双重抽样” 难题，并且没有使用任何平方损失。我们的分析揭示了与传统算法相比，其不同的特点和潜在优势。

Mar, 2020