深度强化学习与致命三角

Dec, 2018

Deep Reinforcement Learning and the Deadly Triad

Hado van Hasselt, Yotam Doron, Florian Strub, Matteo Hessel, Nicolas Sonnerat...

TL;DR研究死亡三元组对于经验回放训练的深度 Q 网络模型的影响，分析该系统的组件在死亡三元组的出现和代理的表现中的作用。

Abstract

We know from reinforcement learning theory that temporal difference learning can fail in certain cases. Sutton and Barto (2018) identify a deadly triad of →

reinforcement learning temporal difference learning function approximation bootstrapping off-policy learning

发现论文，激发创造

探索深度强化学习中的差异化特征

基于线性近似 Q 值更新的分析方法，提出一种稳定的深度 Q 学习算法，不需要传统的技巧（如目标网络、自适应梯度优化器或使用多个 Q 函数）就能实现连续控制，并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。

Mar, 2019

使用目标网络打破致命三角

本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Jan, 2021

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

深度强化学习的期望强调痕迹学习

本文研究将强化权重与非连续、离线数据相结合以提高样本效率，同时在 Atari 2600 电子游戏上测试了新的 X-ETD（n）算法，证明了其可扩展性和广泛适用性。

Jul, 2021

DR3：基于价值的深度强化学习需要明确的正则化

本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明，隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题，并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。

Dec, 2021

直接梯度时差学习

提出一种直接解决双重采样问题的方法，通过在逐渐增大的马尔可夫数据流中使用两个样本，该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效，但摆脱了 GTD 的额外权重，而唯一的代价是随着时间的推移，存储空间呈对数增长。

Aug, 2023

深度强化学习中被动学习的困难

本文章研究了在没有积极的环境交互的情况下从观测数据学习行动的机制，并引入了 “tandem learning” 实验模型来帮助理解离线强化学习的挑战，并发现函数逼近与固定数据分布是离线深度强化学习中最强的因素，对离线深度强化学习提供了有价值的见解，同时也为在线控制学习中观察到的现象提供了新的解释。

Oct, 2021

目标网络如何稳定时序差分法

本研究提供了对深度强化学习中关于目标网络的理论解释，通过对拟合部分策略估计方法的形式化定义，解释了目标网络为何可以稳定 TD 学习，并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。

Feb, 2023

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023