交换式目标条件离线强化学习

Feb, 2023

Swapped goal-conditioned offline reinforcement learning

Wenyan Yang, Huiling Wang, Dingding Cai, Joni Pajarinen, Joni-Kristen Kämäräinen

TL;DR本研究提出了一种离线目标条件强化学习方法，其中包括了通过目标交换产生其他轨迹，以及一个名为确定性 Q - 优势策略梯度的算法，它能够降低噪声和推断误差，与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异，且在具有挑战性的手部操作任务中表现尤为出色。

Abstract

Offline goal-conditioned reinforcement learning (GCRL) can be challenging due to overfitting to the given dataset. To generalize agents' skills outside the given dataset, we propose a goal-swapping procedure that

offline reinforcement learning goal-conditioned trajectory generation deterministic policy goal-swapping

发现论文，激发创造

优先离线目标交换经验回放

本文提出了一种基于优先级的目标交换经验回放算法，并应用于离线强化学习中，用于解决先前数据量不足的问题，实验结果表明该算法在多项基准任务中有着显著的提高。

Feb, 2023

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023

离线目标条件强化学习的未见目标泛化必要因素是什么？

本文研究了离线目标导向增强学习算法的越界泛化问题，提出了一种基于加权模仿学习的离线学习算法（GOAT），在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。

May, 2023

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

离线目标条件强化学习的 $f$- 优势回归方法

提出了一种新的基于回归的离线 GCRL 算法 GoFAR，通过状态匹配方法解决了目标达成任务问题，并充分利用价值函数和策略网络的优势，在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器，实现了零样本迁移。通过实验证明，GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。

Jun, 2022

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

本文提出了一种新的基于离线数据的强化学习算法，该算法拥有通用函数逼近能力、单策略集中性和统计效率，并且只需要极少的假设前提和计算稳定性。

Feb, 2023

离线目标条件强化学习的评分模型

基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Nov, 2023

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023