迭代 Q 网络：超越一步 Bellman 算子

Mar, 2024

迭代 Q 网络：超越一步 Bellman 算子

Iterated $Q$-Network: Beyond the One-Step Bellman Operator

Théo Vincent, Daniel Palenicek, Boris Belousov, Jan Peters, Carlo D'Eramo

TL;DR值基于强化学习的研究论文，介绍了一种新方法 (iterated Q-Networks)，通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近，理论上可行，并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中，通过实验证明了其优势。

Abstract

value-based reinforcement learning (RL) methods rely on the application of the bellman operator, which needs to be approximated from samples. Most approaches consist of an iterative scheme alternating the applica

value-based reinforcement learning bellman operator iterated q-networks q-function approximations actor-critic methods

发现论文，激发创造

批量强化学习中的 Q * 逼近算法：一个理论比较

本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证，并与传统的迭代方法进行了比较，证明了这些方法可以通过估计贝尔曼误差，仅依靠批数据和输出静态策略的算法，享受与任务无关的线性迭代时间性质。其中一种算法使用了新颖而明确的重要性加权校正，以克服贝尔曼误差估计中的 “双重抽样” 难题，并且没有使用任何平方损失。我们的分析揭示了与传统算法相比，其不同的特点和潜在优势。

Mar, 2020

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bellman 算子相比，提供了改进的定点保证。为了利用这些认识，我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点，能够得到任意精度的解。最后，我们通过将其应用于众所周知的环境来验证我们的方法，展示了我们研究结果的有效性和适用性。

Sep, 2023

双线性值网络

通过引入双线性分解的机制，将 Q-value 函数表示为两个向量场之间的点积形式，实现了在实现多目标强化学习过程中 Q-value 函数的优化，提高了数据效率和跨任务泛化能力。

Apr, 2022

最近邻 Q 学习

该论文研究利用最近邻回归方法的最近邻 Q 学习算法，从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数，提供了紧密的有限样本收敛速率分析和样本复杂度。

Feb, 2018

二进制向量动作的 Q 网络

本文研究了具有二元向量动作的强化学习问题，提出了一种用于逼近二元向量动作价值函数的神经网络有效架构，该架构可以使得基于贪心或 softmax 策略的动作选择可以进行高效计算，并基于 Q-learning 提出了一种在线算法，论文还给出了基于方格世界和块障碍任务的实证结果，表明提出的逼近架构可以在具有大量离散动作集的 RL 问题中取得良好的效果。

Dec, 2015

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019

关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法，通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function，证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。

Nov, 2022

深度关注递归 Q 网络

通过深度强化学习方法，利用软、硬注意力机制的扩展 DQN 算法，以 Atari 游戏为测试模型，表明其性能优于 DQN，并且内置的注意机制使得可以直接监控训练过程。

Dec, 2015