Feb, 2024

潜在计划转换器:以潜在变量推理为基础的规划

TL;DR在长期回报任务中,规划变得必要。我们研究了利用离线强化学习数据重新规划的生成模型。具体来说,我们确定了缺少逐步奖励时的时间一致性作为一个关键的技术挑战。我们引入了潜在规划变压器(LPT),这是一种新颖的模型,利用潜在空间连接基于 Transformer 的轨迹生成器和最终回报。LPT 可以通过最大似然估计在轨迹 - 回报对上进行学习。在学习过程中,通过对潜在变量的后验采样,自然地收集子轨迹以形成一致的抽象,尽管有限的上下文。在测试时,从策略执行前的期望回报中推断潜在变量,实现了规划作为推理的想法。然后,它通过整个回合指导自回归策略,发挥了规划的作用。我们的实验表明,LPT 可以从次优轨迹中发现改进的决策。它在多个基准测试中取得了有竞争力的表现,包括 Gym-Mujoco、Maze2D 和 Connect Four,展示了对于细致的信用分配、轨迹拼接和环境变化的适应能力。这些结果验证了潜在变量推断可以成为逐步奖励提示的一个强有力的替代方案。