使用目标网络打破致命三角

ICMLJan, 2021

Breaking the Deadly Triad with a Target Network

Shangtong Zhang, Hengshuai Yao, Shimon Whiteson

TL;DR本文研究了使用目标网络作为打破致命三元组的工具，提出了一种新的目标网络更新规则，并在多个离散算法中应用目标网络和岭回归来证明其收敛性。

Abstract

The deadly triad refers to the instability of a reinforcement learning algorithm when it employs off-policy learning, function approximation

reinforcement learning off-policy learning function approximation bootstrapping target network

发现论文，激发创造

深度强化学习与致命三角

研究死亡三元组对于经验回放训练的深度 Q 网络模型的影响，分析该系统的组件在死亡三元组的出现和代理的表现中的作用。

Dec, 2018

探索深度强化学习中的差异化特征

基于线性近似 Q 值更新的分析方法，提出一种稳定的深度 Q 学习算法，不需要传统的技巧（如目标网络、自适应梯度优化器或使用多个 Q 函数）就能实现连续控制，并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。

Mar, 2019

目标网络如何稳定时序差分法

本研究提供了对深度强化学习中关于目标网络的理论解释，通过对拟合部分策略估计方法的形式化定义，解释了目标网络为何可以稳定 TD 学习，并阐述了它的优缺点和在极具挑战性的离线采样和非线性函数逼近设置中保证收敛的条件。

Feb, 2023

目标网络和过参数化稳定函数逼近下的离线策略引导

通过目标网络和超参数化线性函数逼近的组合，我们证明在某些情况下，即使使用离线数据，也可以建立起一个较弱的收敛条件来估计引导值。我们的条件自然满足对整个状态 - 动作空间进行期望更新或使用一批完整轨迹从情景马尔科夫决策过程中进行学习。值得注意的是，仅使用目标网络或超参数化模型无法提供这种收敛保证。此外，我们将结果推广到使用截断轨迹进行学习，并证明了在对任务进行轻微修改时，可以实现收敛性，类似于对轨迹中的最终状态进行值截断。我们的主要结果关注于预测的时序差异估计，并提供概率较高的值估计误差界和对 Baird 的对策和 Four-room 任务的实证分析。此外，我们探讨了控制设定，证明了类似的收敛条件适用于 Q 学习。

May, 2024

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

使用函数逼近进行的平均回报离线策略评估

本文研究了在平均奖励 MDP 中具有函数逼近的异策略策略评估问题，提出了两种新算法来解决德雷德三元组问题，这是首个求解微分值函数的收敛离线线性函数逼近算法，同时也是首个无需估计密度比的收敛离线线性函数逼近算法，并在简单域和挑战的机器人仿真任务中进行了经验证明。

Jan, 2021

基于目标的时序差分学习

本文介绍了一种新的基于目标的时间差分（TD）学习算法，并对其收敛性进行了理论分析，该算法与标准的 TD 学习不同，维护两个独立的学习参数 - 目标变量和在线变量，以加速 Deep Q 学习中目标网络的收敛。

Apr, 2019

带函数逼近的收敛树备份和 Retrace 方法

该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性，提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法，并证明了其收敛性和有限样本上界，同时还提供了对其他算法收敛速度的新证明。

May, 2017

引导协变移位进行深度强化学习的离线策略

本文介绍了一种针对强化学习中离线学习的校正方法（COP-TD），并通过引入折扣因子解决了非线性函数近似中的问题，进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚，此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。

Jan, 2019

通过无关行为的发散正则化来实现稳定的政策优化

在这篇论文中，我们提出了一种新的算法，它通过一种接近性项稳定了策略改进，并限制由连续策略引发的折扣状态行动访问分布彼此接近，并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明，我们提出的方法可以对稳定性产生有益影响，并提高最终性能.

Mar, 2020