优先离线目标交换经验回放

Feb, 2023

Prioritized offline Goal-swapping Experience Replay

Wenyan Yang, Joni Pajarinen, Dinging Cai, Joni Kämäräinen

TL;DR本文提出了一种基于优先级的目标交换经验回放算法，并应用于离线强化学习中，用于解决先前数据量不足的问题，实验结果表明该算法在多项基准任务中有着显著的提高。

Abstract

In goal-conditioned offline reinforcement learning, an agent learns from previously collected data to go to an arbitrary goal. Since the offline data only contains a finite number of trajectories, a main challenge is how to generate more data. →

offline reinforcement learning goal-conditioned learning goal-swapping experience replay q function

发现论文，激发创造

交换式目标条件离线强化学习

本研究提出了一种离线目标条件强化学习方法，其中包括了通过目标交换产生其他轨迹，以及一个名为确定性 Q - 优势策略梯度的算法，它能够降低噪声和推断误差，与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异，且在具有挑战性的手部操作任务中表现尤为出色。

Feb, 2023

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

重新思考目标导向式监督学习及其与离线强化学习的关联

本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法，通过引入高级复合权重，优化目标达成的下界限，具有优异的性能表现，特别适用于点和模拟机器人方面。

Feb, 2022

离线目标驱动强化学习在安全关键任务中的应用与恢复策略

离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题，并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证，结果表明 RbSL 方法在很大程度上优于现有的最先进方法。

Mar, 2024

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022

离线目标条件强化学习的 $f$- 优势回归方法

提出了一种新的基于回归的离线 GCRL 算法 GoFAR，通过状态匹配方法解决了目标达成任务问题，并充分利用价值函数和策略网络的优势，在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器，实现了零样本迁移。通过实验证明，GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。

Jun, 2022

离线优先经验回放

提出了一种基于优先重现经验的离线强化学习算法，通过一类设计良好的优先级函数来更频繁地访问高回报的转移，从而缓解了分布移位问题并提高了算法性能。

Jun, 2023

离线目标条件强化学习的评分模型

基于离线数据集、无初始监督、且没有判别器的分布匹配方法 (SMORe) 在 GCRL 中取得了显著的性能提升。

Nov, 2023

基于好奇心探索的目标条件离线规划

通过分析优化目标条件下的价值函数的几何特征，我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像，并在各种模拟环境中显著提高了零 - shot 目标达成性能。

Nov, 2023