Feb, 2024

DiffStitch:基于扩散的轨迹拼接技术提升离线强化学习

TL;DR离线强化学习中,学到的策略性能高度依赖于离线数据集的质量。然而,在许多情况下,离线数据集只包含非常有限的最优轨迹,这对离线强化学习算法提出了挑战,因为智能体必须能够转移到高奖励区域。为了解决这个问题,我们引入了一种基于扩散的轨迹拼接(DiffStitch)方法,这是一种新颖的基于扩散的数据增强技术,能够在轨迹之间生成连接转移。DiffStitch 有效地连接了低奖励轨迹与高奖励轨迹,形成全局最优轨迹,以解决离线强化学习算法面临的挑战。在 D4RL 数据集上进行的实证实验表明 DiffStitch 在 RL 方法中的有效性。值得注意的是,DiffStitch 在一步方法(IQL)、模仿学习方法(TD3+BC)和轨迹优化方法(DT)的性能上有了显著提升。