离线目标条件强化学习的评分模型
离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题,并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证,结果表明 RbSL 方法在很大程度上优于现有的最先进方法。
Mar, 2024
提出了一种新的基于模型的两阶段框架,Goal-conditioned Offline Planning(GOPlan),通过预训练一个能够捕捉多模式行为分布的先验策略,并利用规划生成假想轨迹进行微调策略,实现了离线多目标操作任务上最先进的性能。
Oct, 2023
本文研究了离线目标导向增强学习算法的越界泛化问题,提出了一种基于加权模仿学习的离线学习算法(GOAT),在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。
May, 2023
本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法,通过引入高级复合权重,优化目标达成的下界限,具有优异的性能表现,特别适用于点和模拟机器人方面。
Feb, 2022
本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。
Feb, 2023
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于 GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
提出了一种新的基于回归的离线 GCRL 算法 GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。
Jun, 2022
通过解决多步 GCRL 中的偏差问题,本文提出了一种方法来提高学习效率,并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。
Nov, 2023
我们通过提出一种新的优化目标,在稀疏奖励、对称和确定性操作的目标条件离线强化学习问题中,近似计算最优值函数。实验结果表明,我们的方法在从次优离线数据集中学习时始终优于其他离线强化学习方法,并且在处理高维观测和多目标任务方面也表现出很好的效果。
Feb, 2024