探索深度强化学习中的差异化特征

Mar, 2019

探索深度强化学习中的差异化特征

Towards Characterizing Divergence in Deep Q-Learning

Joshua Achiam, Ethan Knight, Pieter Abbeel

TL;DR基于线性近似 Q 值更新的分析方法，提出一种稳定的深度 Q 学习算法，不需要传统的技巧（如目标网络、自适应梯度优化器或使用多个 Q 函数）就能实现连续控制，并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。

Abstract

deep q-learning (DQL), a family of temporal difference algorithms for control, employs three techniques collectively known as the `deadly triad' in reinforcement learning: bootstrapping, off-policy learning, and

deep q-learning reinforcement learning function approximation convergence continuous control

发现论文，激发创造

深度强化学习与致命三角

研究死亡三元组对于经验回放训练的深度 Q 网络模型的影响，分析该系统的组件在死亡三元组的出现和代理的表现中的作用。

Dec, 2018

使用目标网络打破致命三角

本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Jan, 2021

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

离线强化学习中 Q 值离散度的理解、预测和改善

在离线增强学习中，离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进，提出了解决发散问题的新途径，其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。

Oct, 2023

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

DR3：基于价值的深度强化学习需要明确的正则化

本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明，隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题，并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。

Dec, 2021

深度 Q 学习的理论分析

本论文从算法和统计角度出发，对深度强化学习中的深度 Q 网络算法进行了理论分析，并给出了收敛速率。作者还提出了 Minimax-DQN 算法，并将其与马尔可夫博弈的 Nash 均衡进行收敛速率的比较。

Jan, 2019

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015