优先离线目标交换经验回放
本研究提出了一种离线目标条件强化学习方法,其中包括了通过目标交换产生其他轨迹,以及一个名为确定性 Q - 优势策略梯度的算法,它能够降低噪声和推断误差,与现有的离线目标条件强化学习的方法相比在广泛的基准测试中表现优异,且在具有挑战性的手部操作任务中表现尤为出色。
Feb, 2023
提出了一种新的基于模型的两阶段框架,Goal-conditioned Offline Planning(GOPlan),通过预训练一个能够捕捉多模式行为分布的先验策略,并利用规划生成假想轨迹进行微调策略,实现了离线多目标操作任务上最先进的性能。
Oct, 2023
本文提出了一种名为 Weighted GCSL 的离线目标导向强化学习算法,通过引入高级复合权重,优化目标达成的下界限,具有优异的性能表现,特别适用于点和模拟机器人方面。
Feb, 2022
离线目标条件强化学习旨在通过来自离线数据集的稀疏奖励解决目标达成任务。我们研究了受约束离线目标条件强化学习问题,并提出了一种名为 Recovery-based Supervised Learning (RbSL) 的新方法来完成安全关键任务与多个目标。在机器人获取环境中进行了方法性能和实用性验证,结果表明 RbSL 方法在很大程度上优于现有的最先进方法。
Mar, 2024
本文提出了一种名为 Planning to Practice(PTP)的方法,旨在解决普适性机器人面临的目标达成困难和训练代价高的问题,通过分解目标化问题和离线增强学习与在线探索相结合的方法,实现对复杂任务的有效训练和解决。
May, 2022
提出了一种新的基于回归的离线 GCRL 算法 GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR 的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR 在各种问题和任务中都表现出比之前现有技术的显著优势。
Jun, 2022
通过分析优化目标条件下的价值函数的几何特征,我们提出了一种使用基于模型的规划和基于图形的价值聚合方案相结合的方法来纠正学习价值函数中的估计伪像,并在各种模拟环境中显著提高了零 - shot 目标达成性能。
Nov, 2023