离线目标条件强化学习的未见目标泛化必要因素是什么？

May, 2023

离线目标条件强化学习的未见目标泛化必要因素是什么？

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL?

Rui Yang, Yong Lin, Xiaoteng Ma, Hao Hu, Chongjie Zhang...

TL;DR本文研究了离线目标导向增强学习算法的越界泛化问题，提出了一种基于加权模仿学习的离线学习算法（GOAT），在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。

Abstract

Offline goal-conditioned rl (GCRL) offers a way to train general-purpose agents from fully offline datasets. In addition to being conservative within the dataset, the generalization ability to achieve unseen goals is another fundamental challenge for offline GCRL. However, to the best

goal-conditioned rl offline learning out-of-distribution generalization weighted imitation learning goat

发现论文，激发创造

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023

离线目标条件强化学习的评分模型

基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Nov, 2023

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

本文提出了一种新的基于离线数据的强化学习算法，该算法拥有通用函数逼近能力、单策略集中性和统计效率，并且只需要极少的假设前提和计算稳定性。

Feb, 2023

离线目标条件强化学习的 $f$- 优势回归方法

提出了一种新的基于回归的离线 GCRL 算法 GoFAR，通过状态匹配方法解决了目标达成任务问题，并充分利用价值函数和策略网络的优势，在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器，实现了零样本迁移。通过实验证明，GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。

Jun, 2022

交换式目标条件离线强化学习

本研究提出了一种离线目标条件强化学习方法，其中包括了通过目标交换产生其他轨迹，以及一个名为确定性 Q - 优势策略梯度的算法，它能够降低噪声和推断误差，与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异，且在具有挑战性的手部操作任务中表现尤为出色。

Feb, 2023

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

HIQL：将潜在状态作为行动的离线目标条件强化学习

无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法，以利用大量无标签（无回报）数据。本文提出了一种基于层次结构的算法，用于从离线数据中进行目标条件下的增强学习，并证明了该方法对估计值函数中的噪声具有鲁棒性，并且能够解决具有长时间跨度的任务。

Jul, 2023

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

离线强化学习中的泛化缺陷

该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。

Dec, 2023