针对鲁棒的基于模型的离线强化学习的领域通用性

Nov, 2022

针对鲁棒的基于模型的离线强化学习的领域通用性

Domain Generalization for Robust Model-Based Offline Reinforcement Learning

Alan Clark, Shoaib Ahmed Siddiqui, Robert Kirk, Usman Anwar, Stephen Chung...

TL;DR本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Abstract

Existing offline reinforcement learning (RL) algorithms typically assume that training data is either: 1) generated by a known policy, or 2) of entirely unknown origin. We consider multi-demonstrator offline RL,

offline reinforcement learning multi-demonstrator domain generalization risk extrapolation model-based rl

发现论文，激发创造

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

离线强化学习中有限数据处理的领域知识整合

通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Jun, 2024

领域：温和保守的基于模型的离线强化学习

这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN)，通过引入模型样本的自适应抽样分布来调整模型数据惩罚，理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界，与先前的基于模型的离线强化学习算法相比，DOMAIN 是较保守的，并且具有安全策略改进的保证。大量实验证明 DOMAIN 在 D4RL 数据集基准上优于先前的强化学习算法，并且在需要泛化的任务上比其他强化学习算法表现更好。

Sep, 2023

跨两个领域利用无标签领域数据的离线增强学习

通过开发一种融合正负无标签学习的离线强化学习算法，该研究论文针对域未标记数据的挑战，有效地识别领域并学习优于基准的策略，以实现域未标记数据的有效利用。

Apr, 2024

不要改变算法，改变数据：离线强化学习的探索性数据

本论文提出了一种数据导向的离线强化学习方法，称为 Exploratory data for Offline RL (ExORL)，通过无监督的无奖励探索生成数据，然后将其转换成特定奖励的数据，以训练出一个政策，实验证明，这种探索性的数据生成方法对于离线 RL 非常重要。

Jan, 2022

离线强化学习中的超出分布泛化扩散策略

利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比，离线强化学习可以使用非专家数据和多模态行为策略。然而，离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战，因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而，它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法，将状态重构特征学习纳入最近的一类扩散策略中，以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习，从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能，实现了最先进的结果。

Jul, 2023

行为预期和动态模型：改进离线强化学习的性能和领域转移

本文提出了一种 Offline Model-based RL with Adaptive Behavioral Priors（MABE）算法，利用数据集的动力学模型和行为先验知识相结合，大大提高了离线 RL 策略的性能和泛化能力，在 D4RL 离线 RL 基准测试中表现优异，且具有跨域泛化性能。

Jun, 2021

领域对抗性强化学习

该研究解决强化学习中的泛化问题，通过领域对抗优化过程实现学习表征的视觉不变性，取得显著的泛化改进效果。

Feb, 2021

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020