通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

Nov, 2023

通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for Deep Reinforcement Learning

Junmin Zhong, Ruofan Wu, Jennie Si

TL;DR深度强化学习中的估计偏差问题以及引入的解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法，通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，使其与 D4PG（当前领先算法）性能媲美，并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能，达到了新的领先水平。

Abstract

We address the issue of estimation bias in deep reinforcement learning (DRL) by introducing solution mechanisms that include a new, twin TD-regularized →

estimation bias deep reinforcement learning actor-critic tdr method drl improvements

发现论文，激发创造

TD 正则化的 Actor-Critic 方法

本文介绍了一种名为 TD 正则化 actor-critic 方法的算法，它可以通过对演员学习目标进行正则化来改善算法的稳定性，并取得更好的性能表现。

Dec, 2018

深度双 Q 学习在演员评论方法中的估计偏差利用

本文介绍了创新的强化学习方法，重点是解决和利用演员 - 评论家方法中连续控制任务中的估计偏差，使用深度双 Q 学习。我们提出了两种新算法：期望延迟深度确定性策略梯度（ExpD3）和偏差利用 - 双延迟深度确定性策略梯度（BE-TD3）。ExpD3 旨在通过单个 $Q$ 估计值减少过高估计的偏差，从而在计算效率和性能之间取得平衡，而 BE-TD3 则旨在在训练过程中动态选择最有利的估计偏差。我们在各种连续控制任务上进行了广泛的实验，证明了我们方法的有效性。我们证明这些算法可以在估计偏差显著影响学习的环境中与现有方法（如 TD3）相匹配甚至超越。实验结果强调了利用偏差改进强化学习中的策略学习的重要性。

Feb, 2024

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

这篇论文介绍了对标准的 DSAC 算法进行三个重要修正，包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑，修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2，在各种基准任务中的表现进行了系统评估，结果显示，在所有测试环境中，不需要任何任务特定的超参数调整，DSAC-T 超越了许多主流的无模型 RL 算法，包括 SAC、TD3、DDPG、TRPO 和 PPO，并且与标准版本相比，DSAC-T 确保了高度稳定的学习过程，并在不同的奖励尺度下具有相似的性能。

Oct, 2023

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法，通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习，并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。

May, 2024

DR3：基于价值的深度强化学习需要明确的正则化

本研究探讨了隐式正则化在深度增强学习中的应用。我们的分析表明，隐式正则化可能会导致总体泛化性能下降和特征表示的变形。这篇论文通过提出一种基于 DR3 的新正则化方法来解决这个隐式正则化问题，并在 Atari 2600 游戏、D4RL 领域和从图像中学习的机器人操作等领域取得了良好的性能和稳定性。

Dec, 2021

使用策略适应去交织 Actor-Critic 网络以支持动态治疗方案

通过使用新的去混淆 actor-critic 网络模型，基于电子健康记录的强化学习机制的动态治疗模式可获得更好的患者个体化通气治疗决策，从而提高患者的预后。

May, 2022

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023