离线目标条件强化学习的评分模型

Nov, 2023

离线目标条件强化学习的评分模型

Score Models for Offline Goal-Conditioned Reinforcement Learning

Harshit Sikchi, Rohan Chitnis, Ahmed Touati, Alborz Geramifard, Amy Zhang...

TL;DR基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Abstract

offline goal-conditioned reinforcement learning (GCRL) is tasked with learning to achieve multiple goals in an environment purely from offline

goal-conditioned reinforcement learning offline datasets occupancy matching smore

发现论文，激发创造

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023

离线目标条件强化学习的未见目标泛化必要因素是什么？

本文研究了离线目标导向增强学习算法的越界泛化问题，提出了一种基于加权模仿学习的离线学习算法（GOAT），在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。

May, 2023

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

本文提出了一种新的基于离线数据的强化学习算法，该算法拥有通用函数逼近能力、单策略集中性和统计效率，并且只需要极少的假设前提和计算稳定性。

Feb, 2023

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

离线目标条件强化学习的 $f$- 优势回归方法

提出了一种新的基于回归的离线 GCRL 算法 GoFAR，通过状态匹配方法解决了目标达成任务问题，并充分利用价值函数和策略网络的优势，在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器，实现了零样本迁移。通过实验证明，GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。

Jun, 2022

偏差弹性多步离策略目标条件强化学习

通过解决多步 GCRL 中的偏差问题，本文提出了一种方法来提高学习效率，并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。

Nov, 2023

基于度量学习的目标条件离线强化学习

我们通过提出一种新的优化目标，在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中，近似计算最优值函数。实验结果表明，我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法，并且在处理高维观测和多目标任务方面也表现出很好的效果。

Feb, 2024

目标导向强化学习：问题与解决方案

本文综述了目标条件强化学习的挑战、算法、目标表示以及未来研究方向。

Jan, 2022