潜在计划转换器：以潜在变量推理为基础的规划

Feb, 2024

潜在计划转换器：以潜在变量推理为基础的规划

Latent Plan Transformer: Planning as Latent Variable Inference

Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie...

TL;DR在长期回报任务中，规划变得必要。我们研究了利用离线强化学习数据重新规划的生成模型。具体来说，我们确定了缺少逐步奖励时的时间一致性作为一个关键的技术挑战。我们引入了潜在规划变压器（LPT），这是一种新颖的模型，利用潜在空间连接基于 Transformer 的轨迹生成器和最终回报。LPT 可以通过最大似然估计在轨迹 - 回报对上进行学习。在学习过程中，通过对潜在变量的后验采样，自然地收集子轨迹以形成一致的抽象，尽管有限的上下文。在测试时，从策略执行前的期望回报中推断潜在变量，实现了规划作为推理的想法。然后，它通过整个回合指导自回归策略，发挥了规划的作用。我们的实验表明，LPT 可以从次优轨迹中发现改进的决策。它在多个基准测试中取得了有竞争力的表现，包括 Gym-Mujoco、Maze2D 和 Connect Four，展示了对于细致的信用分配、轨迹拼接和环境变化的适应能力。这些结果验证了潜在变量推断可以成为逐步奖励提示的一个强有力的替代方案。

Abstract

In tasks aiming for long-term returns, planning becomes necessary. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge.

generative modeling offline reinforcement learning latent plan transformer trajectory generator planning as inference

发现论文，激发创造

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022

PlanT: 通过物体级表示实现可解释的规划 Transformer

该研究提出了一种名为 PlanT 的新方法，使用标准的 Transformer 架构，通过紧凑的对象层输入表示进行模仿学习来进行自动驾驶的计划，可以更好地识别相关对象，结合现有的感知模块即可实现更优秀的驾驶性能。

Oct, 2022

潜在扩散下的高效规划

该研究论文介绍了一种统一的框架，利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划，通过考虑预训练的扩散模型进行能量引导抽样，通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能，并在高维任务中超过了现有的方法。

Sep, 2023

基于 Transformer 的视觉引导规划在程序化任务中的应用

使用人类决策过程的教学视频培训模型，学习从视频中直接生成可规划结构的状态和行动空间，并使用 Planning Transformer 解决了长期决策的复杂性问题，并通过实验证明了其在达到目标方面的良好性能表现。

Sep, 2021

可微空间规划：基于 Transformer 的实现

利用数据中的统计规律，我们提出了空间规划变换器 (SPT)，通过学习障碍地图生成长程空间相关的行动来规划移动路径，实现了比先前数据驱动规划方法更好的算法，能够适应不同的障碍地图和任务目标。

Dec, 2021

紧凑潜在动作空间中的有效规划

该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法，通过使用低维潜在动作编码和状态条件 VQ-VAE 模型，以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹，并在高维持续行为空间中超越了现有的模型和策略的基线结果。

Aug, 2022

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

深度潜空间中的古典规划：跨越子符号和符号边界

本文介绍了一种使用深度学习与经典规划相结合的无监督架构 LatPlan，通过提供一组图像对作为训练输入和一对初始和目标状态图像作为规划输入，可以使规划过程在符号潜在空间中找到计划并返回可视化的计划执行。

Apr, 2017

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

规划、消除和跟踪 —— 语言模型是装备智能体的良师益友

使用大型语言模型的知识来简化控制问题，而不是直接解决它，作者提出了 Plan, Eliminate, and Track (PET) 框架，并在 AlfWorld 指令跟随基准测试中取得了显着的 15% 性能提升。

May, 2023