深层残差强化学习

May, 2019

Deep Residual Reinforcement Learning

Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson

TL;DR本文重新探讨了残差算法在无模型和有模型强化学习中的应用，提出了双向目标网络技术来稳定残差算法，在 DeepMind 控制套件基准测试中，得到了明显优于基准 DDPG 的残差版本，同时，在模型为基础的规划中，本研究发现残差算法是解决分布不匹配问题的有效方法，与现有的 TD（$k$）方法相比，我们的基于残差的方法对模型做出了更弱的假设，提高了性能。

Abstract

We revisit residual algorithms in both model-free and model-based reinforcement learning settings. We propose the bidirectional target network

residual algorithms reinforcement learning bidirectional target network deepmind control suite model-based planning

发现论文，激发创造

时间差分与残差梯度在神经网络逼近中的实验比较

我们在深度 Q 学习中比较了 Residual Gradient (RG) 和 Temporal Difference (TD), 结果表明 TD 更优，同时我们还发现了强化学习和监督学习之间的一个关键差异，即小的 Bellman 残差误差可能对应一个不好的策略。我们进一步证明了 TD 中的缺失项是 RG 表现不佳的重要原因。我们的研究表明，深度 Q 学习的性能与训练动态密切相关，如何使用不完全梯度下降方法找到良好策略是未来研究的一个有趣领域。

May, 2022

填充 - 溢出：深度强化学习策略梯度方法用于水库操作决策与控制

研究采用深度强化学习方法（DDPG、TD3 和 SAC18 和 SAC19）分析并找到了加利福尼亚州福尔桑水库的最佳操作政策，结果表明 TD3 和 SAC 方法能够满足水库需求并优化其运行策略。

Mar, 2024

复杂和连续状态行动空间的专用深度残差策略安全强化学习控制器

传统控制器有局限性，深度强化学习通过在环境中进行探索来学习最优控制策略，为安全关键环境提出专门的深度残差策略安全强化学习方法，并在 Tennessee Eastman 过程控制中进行验证。

Oct, 2023

连续控制增强学习：分布分布式 DrQ 算法

Distributed Distributional DrQ 是一个无模型离线 RL 算法，用于连续控制任务，基于代理的状态和观测，是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础，该算法在各种连续控制任务中取得了出色的性能。

Apr, 2024

基于目标分布学习的连续控制策略搜索

本研究提出了新的强化学习方法 —— 目标分布学习 (TDL)，通过交替提出目标分布和训练策略网络来解决现有策略梯度方法可能出现过大梯度和训练不稳定的问题，实验发现这种方法能得到类似或更好的结果，并且更加稳定。

May, 2019

分布式分布式确定性策略梯度

本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Apr, 2018

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

残差策略学习

本文介绍了一种简单的方法 —— 残差策略学习（Residual Policy Learning，RPL），用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时，研究了 RPL 的应用，这些任务中存在良好但不完美的控制器。与从头开始的强化学习相比，RPL 在这些任务中可以获得显著的改进。在六个挑战性的 MuJoCo 任务中，我们将初始控制器设置为手动设计的策略和具有已知或学习转移模型的模型预测控制器。通过将学习与控制算法相结合，RPL 可以执行长时程、稀疏奖励任务，而仅使用强化学习则失败。此外，我们发现 RPL 在改善初始控制器方面一致且显著。我们认为 RPL 是结合深度强化学习和机器人控制互补优势的一种有前途的方法，推动了两者独立实现的边界。

Dec, 2018

时序差分模型：无模型深度强化学习用于模型控制

介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数，称为时间差分模型，它可以利用状态转移的丰富信息来非常高效地学习，同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明，在一系列连续控制任务中，TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。

Feb, 2018

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022