保守的 DDPG -- 无需集成的悲观强化学习

Mar, 2024

保守的 DDPG -- 无需集成的悲观强化学习

Conservative DDPG -- Pessimistic RL without Ensemble

Nitsan Soffair, Shie Mannor

TL;DRDDPG 面临过度估计偏差问题，而传统解决方法涉及到需要大量计算资源的基于集成的方法或难以理解和实现的复杂对数策略方法。相比之下，我们提出了一种简单的解决方案，使用一个 $Q$-target 并结合行为克隆（BC）损失惩罚作为不确定性度量，这种解决方案可以在最小的代码实现中轻松使用，而无需集成。我们的实证结果强烈支持 Conservative DDPG 在各种 MuJoCo 和 Bullet 任务中相对于 DDPG 的优越性能，我们在所有评估任务中一致观察到更好的性能，甚至与 TD3 和 TD7 相比也表现出竞争力或更优越的性能，并且大大降低了计算需求。

Abstract

ddpg is hindered by the overestimation bias problem, wherein its $Q$-estimates tend to overstate the actual $Q$-values. Traditional solutions to this bias involve →

ddpg overestimation bias problem ensemble-based methods behavioral cloning conservative ddpg

发现论文，激发创造

为何如此悲观？通过集成估计离线 RL 的不确定性以及为何独立性很重要

本研究中，我们提出了一种名为 MSG 的实用的离线强化学习算法，该算法针对每个 ensemble member 独立计算目标，利用预测值的下限来优化策略，并在流行的离线 RL 基准测试中表现出优异的性能。

May, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

学习悲观主义以实现鲁棒和高效的离策略强化学习

本文提出一种新的学习策略 —— 广义悲观学习（GPL），其利用可学习的罚值对目标回报进行悲观估计，在双 TD-learning 方法下训练策略评估模型，有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题，在传统的强化学习算法中取得了最先进的水平。

Oct, 2021

带有保守优势学习的同时双 Q 学习对演员 - 评论家方法的应用

该论文提出了 Simultaneous Double Q-learning with Conservative Advantage Learning (SDQ-CAL) 算法，用于改善 Actor-critic Reinforcement Learning 在连续控制任务中的样本效率和过度估计偏差问题，并在连续控制基准测试中实现了最先进的性能。

May, 2022

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

深度强化学习中策略梯度估计偏差的重新审视

本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程（MDP）中政策梯度的估计偏差，重点讨论了状态分布漂移引起的偏差，提出了 3 种减少偏差的方法（小学习率；基于自适应学习率的优化器，KL 正则化），并在连续控制任务上展示了实验结果。

Jan, 2023

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021