可微空间规划:基于 Transformer 的实现
本文考虑了可微分的空间路径规划问题,并证明了使用空间规划变形器的方法优于以往的数据驱动模型,并利用可微结构同时学习无地图辅助的映射。同时,本文还在增加了障碍物复杂度的地图上验证了该方法的规划准确性的稳定性。
Aug, 2022
该研究提出了一种名为 PlanT 的新方法,使用标准的 Transformer 架构,通过紧凑的对象层输入表示进行模仿学习来进行自动驾驶的计划,可以更好地识别相关对象,结合现有的感知模块即可实现更优秀的驾驶性能。
Oct, 2022
使用人类决策过程的教学视频培训模型,学习从视频中直接生成可规划结构的状态和行动空间,并使用 Planning Transformer 解决了长期决策的复杂性问题,并通过实验证明了其在达到目标方面的良好性能表现。
Sep, 2021
本文提出了一种基于目标驱动的结构化 Transformer 规划器(TD-STP)用于长期目标导向和房间布局感知的视觉语言导航任务,该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构,并在 R2R 和 REVERIE 基准测试数据集上的测试结果上比现有最优方法的成功率分别提高了 2%和 5%
Jul, 2022
本论文提出了一种带有离散瓶颈层的 Transformer 模型,通过学习压缩形式的历史观测和操作,从部分观测的环境中提取解释性的环境认知图,并用于解决路径规划问题,该模型在预测性能、求解速度和解释性上都表现出色。
Jan, 2024
引入一种新的可学习模块 ——Spatial Transformer,能够在现有的卷积网络结构中显式地允许对数据进行空间操作,从而使得模型得以学习对于平移、缩放、旋转以及基于更一般的扭曲变换的不变性,其模型表现在多个基准测试数据集上达到了最先进的水平。
Jun, 2015
在长期回报任务中,规划变得必要。我们研究了利用离线强化学习数据重新规划的生成模型。具体来说,我们确定了缺少逐步奖励时的时间一致性作为一个关键的技术挑战。我们引入了潜在规划变压器(LPT),这是一种新颖的模型,利用潜在空间连接基于 Transformer 的轨迹生成器和最终回报。LPT 可以通过最大似然估计在轨迹 - 回报对上进行学习。在学习过程中,通过对潜在变量的后验采样,自然地收集子轨迹以形成一致的抽象,尽管有限的上下文。在测试时,从策略执行前的期望回报中推断潜在变量,实现了规划作为推理的想法。然后,它通过整个回合指导自回归策略,发挥了规划的作用。我们的实验表明,LPT 可以从次优轨迹中发现改进的决策。它在多个基准测试中取得了有竞争力的表现,包括 Gym-Mujoco、Maze2D 和 Connect Four,展示了对于细致的信用分配、轨迹拼接和环境变化的适应能力。这些结果验证了潜在变量推断可以成为逐步奖励提示的一个强有力的替代方案。
Feb, 2024
我们开发了一种基于 Transformer 的架构 PIGINet,该架构可通过融合图像和文本嵌入以及状态特征,预测计划可行性,并根据预测的满足度排序 TAMP 计划器生成的计划骨架,从而能够大大提高可行性规划的效率。
Nov, 2022
研究使用 Transformer 建立和训练机器人决策的空间表示,提出 Spatial Language Attention Policies (SLAP) 方法,使用三维标记作为输入表示进行训练,能够快速训练或微调机器人感知动作策略,并在真实环境中实现 80% 的成功率。
Apr, 2023
本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型,通过采用局部窗口注意力和全局注意力模块,实现了对长视频片段中动作的高效检测和定位,与目前流行的基于 Transformer 的模型相比,提高了精度并减少了冗余计算。
Jul, 2022