领域：温和保守的基于模型的离线强化学习

Sep, 2023

领域：温和保守的基于模型的离线强化学习

DOMAIN: MilDly COnservative Model-BAsed OfflINe Reinforcement Learning

Xiao-Yin Liu, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng...

TL;DR这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Abstract

model-based reinforcement learning (RL), which learns environment model from offline dataset and generates more out-of-distribution model data, has become an effective approach to the problem of distribution shift in of

model-based reinforcement learning offline rl conservatism model uncertainty estimation adaptive sampling distribution

发现论文，激发创造

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

MICRO: 基于模型的离线强化学习与保守贝尔曼算子

提出了一种新的基于模型的离线学习算法 MICRO，通过引入鲁棒的 Bellman 操作符在性能和稳健性之间进行权衡，可以显著降低计算成本并在离线学习基准测试中优于先前的 RL 算法，对敌对扰动也相当稳健。

Dec, 2023

离线强化学习中的温和保守型 Q 学习

提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪 Q 值来积极地训练 OOD 动作，在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Jun, 2022

离线多智能体强化学习中的扩散政策与保守性之外

本文提出了一种基于扩散的离线多智能体模型（DOM2），采用轨迹数据增广方案，可以应对环境变化，达到更好的性能、泛化能力和数据效率。实验结果表明，DOM2 在多智能体环境中和 shifted environments 下都比现有算法表现更好，并拥有更强的数据效率。

Jul, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

离线强化学习中有限数据处理的领域知识整合

通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Jun, 2024

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

基于逆向模型想象的离线强化学习

针对离线强化学习模型的学习策略和给定数据集之间的分布变化这一难题，提出了一种新的基于模型的离线强化学习框架，名为 ROMI，它通过学习一个反向动力学模型和一种新颖的反向策略，可以在离线数据集内生成无风险 imagination，并启用 model-free 策略学习和保守性的泛化。实证结果表明，该方法能够生成更为保守的行为，并取得最先进的离线强化学习基准任务的表现。

Oct, 2021