保守世界模型

Sep, 2023

Conservative World Models

Scott Jeen, Tom Bewley, Jonathan M. Cullen

TL;DR通览全文后，我们发现：利用前后表示法（FB）及保守策略，即使在小数据集上训练，零样本强化学习在各个数据集、领域和任务中可以比纯 FB 性能高达 150%，且保守策略算法表现不亚于任务特定算法。

Abstract

zero-shot reinforcement learning (RL) promises to provide agents that can perform any task in an environment after an offline pre-training phase. Forward-backward (FB) representations represent remarkable progress towards this ideal, achieving 85% of the performance of task-specific ag

zero-shot reinforcement learning forward-backward representations conservatism small datasets offline rl algorithms

发现论文，激发创造

面向多任务离线强化学习的保守数据共享

介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题，并提出了一种保守数据共享的方法，应用于单任务离线强化学习，取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。

Sep, 2021

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

领域：温和保守的基于模型的离线强化学习

这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Sep, 2023

CROP：基于模型的线下策略优化的保守奖励

通过引入保守性估计奖励的方法，本论文提出了一种创新的基于模型的离线增强学习算法，名为 CROP，该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励，从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中，CROP 的性能与最先进的基准算法相当。值得注意的是，CROP 建立了离线和在线增强学习之间的创新连接，突出了通过采用在线增强学习技术对使用保守奖励训练得到的经验马尔可夫决策过程来解决离线增强学习问题的可行性。

Oct, 2023

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

COMBO: 保守的离线基于模型的策略优化

该研究提出一种新的基于模型的线下强化学习算法（COMBO），该算法不需要显式的不确定性估计，通过对已学习模型下的滚动状态动作元组进行价值函数正则化，从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限，且实验表明与先前的线下模型自由和基于模型的方法相比，COMBO 在广泛研究的线下 RL 基准测试中表现持续改进。

Feb, 2021

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024