使用条件扩散模型拼接子轨迹以实现目标条件离线强化学习
提出了一种新的基于回归的离线GCRL算法GoFAR,通过状态匹配方法解决了目标达成任务问题,并充分利用价值函数和策略网络的优势,在离线性能和稳定性方面表现优异。GoFAR的训练目标还可以用于纯离线数据学习无特定环境的目标条件规划器,实现了零样本迁移。通过实验证明,GoFAR在各种问题和任务中都表现出比之前现有技术的显著优势。
Jun, 2022
本文提出了一种新的学习目标,通过优化已实现和未来需要探索的目标的熵,以更高效地探索子目标选择基于GCRL,该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。
Oct, 2022
本文提出了一种基于任务的条件扩散规划器(MetaDiffuser)来解决离线 meta-RL 中通用性问题,该规划器可以生成针对任务的轨迹以在各种任务间进行规划。实验结果表明 MetaDiffuser 能够表现出优异的生成轨迹能力,优于其他离线 meta-RL 基线模型。
May, 2023
本研究探讨了序列建模在轨迹数据中提取有用表示并对政策学习做出贡献的能力,并引入了Goal-Conditioned Predicitve Coding (GCPC)方法,通过对未来的目标条件潜在表示进行学习实现了竞争力表现。
Jul, 2023
无监督预训练成为了计算机视觉和自然语言处理的基石。强化学习中的目标条件下增强学习可以提供类似的自监督方法,以利用大量无标签(无回报)数据。本文提出了一种基于层次结构的算法,用于从离线数据中进行目标条件下的增强学习,并证明了该方法对估计值函数中的噪声具有鲁棒性,并且能够解决具有长时间跨度的任务。
Jul, 2023
基于数据增强的知识蒸馏方法提出,通过条件扩散模型生成高回报轨迹,并通过新的奖励生成器运用新颖的拼接算法将其与原始轨迹混合。将得到的数据集应用于行为克隆,学习到的规模较小的浅层策略在几个D4RL基准测试中表现优于或接近深度生成规划器。
Feb, 2024
离线强化学习中,学到的策略性能高度依赖于离线数据集的质量。然而,在许多情况下,离线数据集只包含非常有限的最优轨迹,这对离线强化学习算法提出了挑战,因为智能体必须能够转移到高奖励区域。为了解决这个问题,我们引入了一种基于扩散的轨迹拼接(DiffStitch)方法,这是一种新颖的基于扩散的数据增强技术,能够在轨迹之间生成连接转移。DiffStitch有效地连接了低奖励轨迹与高奖励轨迹,形成全局最优轨迹,以解决离线强化学习算法面临的挑战。在D4RL数据集上进行的实证实验表明DiffStitch在RL方法中的有效性。值得注意的是,DiffStitch在一步方法(IQL)、模仿学习方法(TD3+BC)和轨迹优化方法(DT)的性能上有了显著提升。
Feb, 2024
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
May, 2024
本研究解决了离线强化学习中数据稀缺的问题,提出了一种利用条件扩散概率模型(DPMs)的方法,以学习大规模离线数据集和有限目标数据集的联合分布。研究结果表明,该方法在多个基准测试中显著优于其他强有力的基线,并通过改变上下文,使模型在源动态与目标动态之间进行插值,从而增强了对环境细微变化的鲁棒性。
Oct, 2024
本文针对离线目标条件强化学习(GCRL)缺乏标准基准的问题,提出了OGBench,这是一个高质量的基准测试平台。OGBench包含8种类型的环境、85个数据集和6种代表性的离线GCRL算法的参考实现,旨在全面评估算法的不同能力并为新算法的开发奠定基础。
Oct, 2024