为何如此悲观？通过集成估计离线 RL 的不确定性以及为何独立性很重要

May, 2022

为何如此悲观？通过集成估计离线 RL 的不确定性以及为何独立性很重要

Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters

Seyed Kamyar Seyed Ghasemipour, Shixiang Shane Gu, Ofir Nachum

TL;DR本研究中，我们提出了一种名为 MSG 的实用的离线强化学习算法，该算法针对每个 ensemble member 独立计算目标，利用预测值的下限来优化策略，并在流行的离线 RL 基准测试中表现出优异的性能。

Abstract

Motivated by the success of ensembles for uncertainty estimation in supervised learning, we take a renewed look at how ensembles of $Q$-functions can be leveraged as the primary source of →

ensembles pessimism offline reinforcement learning msg deep ensembles

发现论文，激发创造

悲观离线强化学习的神经网络近似

利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。

Dec, 2023

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

悲观引导的不确定性驱动离线强化学习

本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL)，它通过引入一种 Q 函数的不确定度来量化不确定性，并以此进行悲观更新，以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明，相比现有算法，PBRL 具有更好的性能表现。

Feb, 2022

离线强化学习的悲观 Q 学习：朝着最优样本复杂性的方向

本文研究了离线强化学习的一个悲观策略 Q-learning，针对有限时间的马尔科夫决策过程，通过单一策略密度函数的集中性假设，对其样本复杂度进行了表征，并提出了一种方差减小的悲观 Q-learning 算法来达到接近最优的样本复杂度。研究结果表明，在离线强化学习中，结合悲观策略和方差减小的模型无关型算法能够提高效率。

Feb, 2022

保守的 DDPG -- 无需集成的悲观强化学习

DDPG 面临过度估计偏差问题，而传统解决方法涉及到需要大量计算资源的基于集成的方法或难以理解和实现的复杂对数策略方法。相比之下，我们提出了一种简单的解决方案，使用一个 $Q$-target 并结合行为克隆（BC）损失惩罚作为不确定性度量，这种解决方案可以在最小的代码实现中轻松使用，而无需集成。我们的实证结果强烈支持 Conservative DDPG 在各种 MuJoCo 和 Bullet 任务中相对于 DDPG 的优越性能，我们在所有评估任务中一致观察到更好的性能，甚至与 TD3 和 TD7 相比也表现出竞争力或更优越的性能，并且大大降低了计算需求。

Mar, 2024

平衡重现和悲观 Q 集合的离线到在线强化学习

本文提出了一种平衡重放机制和多 Q 函数的方法来解决深度离线强化学习中的状态 - 动作分布移位问题，以提高机器人代理在不同运动和操作任务中的样本效率和最终性能。

Jul, 2021

异步 Q-Learning 中悲观主义的功效

本文研究异步 Q-learning 的形式，将随机近似策略应用于马尔可夫数据样本，提出一种算法框架，将悲观主义原则纳入异步 Q-learning 中，基于合适的下置信界来惩罚访问不频繁的状态 - 动作对，从而提高了样本效率和适应性。

Mar, 2022

多样化的随机化价值函数：离线强化学习的可证明悲观方法

离线强化学习面临分布偏移和不可靠价值估计，本文提出了一种新策略，采用多样化的随机化值函数估计 $Q$ 值的后验分布，并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正则化方法，可以减少所需的网络数量，从而实现可靠的价值估计和有效的策略学习。理论分析表明，在线性 MDP 假设下，我们的方法能够恢复出经过证明的高效的较低置信区间惩罚。大量的实证结果也证明，我们提出的方法在性能和参数效率方面明显优于基准方法。

Apr, 2024

提高基于模型的离线强化学习的确定性不确定性传播

利用动量匹配离线模型优化的方法 (MOMBO)，通过确定性传播不确定性，解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战，并通过在各种环境中的实证研究证明 MOMBO 是更稳定和更高效的方法。

Jun, 2024

悲观策略在离线强化学习中能被证明是高效的吗？

本文提出了一种悲观的价值迭代算法（PEVI），它通过引入一个不确定性量化器作为惩罚函数来解决离线强化学习中因数据集覆盖不足而导致的不足问题，并在泛化情况下对其次优性建立了数据相关的上限。

Dec, 2020