基于堆叠 Transformer 的多模态动作预测

CVPRMar, 2021

基于堆叠 Transformer 的多模态动作预测

Multimodal Motion Prediction with Stacked Transformers

Yicheng Liu, Jinghuai Zhang, Liangji Fang, Qinhong Jiang, Bolei Zhou

TL;DR该论文提出了一种新的基于 transformer 的系统 ——mmTransformer，它使用独立提案集生成和选择提案，并使用基于区域的训练策略诱导所生成提案的多样性。实验表明，该模型在运动预测方面具有最先进的性能，大大提高了预测轨迹的多样性和准确性。

Abstract

Predicting multiple plausible future trajectories of the nearby vehicles is crucial for the safety of autonomous driving. Recent motion prediction approaches attempt to achieve such multimodal →

autonomous driving motion prediction mmtransformer multimodality argoverse dataset

发现论文，激发创造

基于 Transformer 的多模式神经网络用于自动驾驶的运动预测

本文介绍了一种基于 Transformer 结构的神经预测框架来模拟车辆之间的社交关系和预测可能的轨迹，其中采用了多模态注意机制来解决运动预测的多模态问题，并在 Argoverse 运动预测数据集上得到了最佳预测精度。

Sep, 2021

具有全局意图定位和局部运动细化的运动变换器

本文提出了一个 Motion TRansformer (MTR) 框架，将运动预测看作全局意向定位和局部运动细化的联合优化问题，通过可学习的少量运动查询对来引入空间意向先验，实现了更好的多模态预测。实验表明，该方法在多个运动预测挑战上均达到了最先进的水平，并在 Waymo 开放式运动数据集的排行榜上排名第一。

Sep, 2022

多元未来预测

为了预测智能与健壮的复杂动态环境下未来的多个目标路径，该论文提出了基于概率的框架来学习表示语义多模态未来的潜在变量，其中利用动态基于注意力的状态编码器学习编码智能体之间的交互，可被用于车辆轨迹预测。

Nov, 2019

走向可信的多模式运动预测：评估和可解释性

该研究旨在提升基于实现值得信赖的人工智能设计需求的可靠性运动预测系统。其分析了当前评估基准的主要缺陷，提出了一个新的全面评估框架，并制定了用于模拟感知系统中的噪声的空间和时间鲁棒性评估方法。同时，提出了附加在多模态运动预测模型上的意图预测层，以提升输出的可解释性和生成更平衡的结果。最后，通过调查探讨了多模态轨迹和意图可视化中的不同元素来评估输出的可解释性。

Oct, 2022

基于机动 LSTM 的多模态环境车辆轨迹预测

本文针对自动驾驶汽车在复杂交通情境下进行安全高效的行驶所需的需求，提出了使用 LSTM 模型来进行交互式的运动预测，并在 NGSIM US-101 和 I-80 数据集上与其他方法进行了比较和分析。

May, 2018

Scene Transformer: 预测多个 Agent 轨迹的统一体结构

本篇研究旨在提出一种基于遮罩策略和注意力机制的场景中多智能体行为预测模型，以解决自动驾驶中的动态环境下多种智能体之间相互作用问题，结果表明该模型在多种运动预测任务上表现出优越性和普适性。

Jun, 2021

多模态变压器下的上下文感知行人轨迹预测

我们提出了一种新颖的解决方案，用于预测行人的未来轨迹。我们的方法使用多模态编码 - 解码变换器架构，以行人位置和自车速度作为输入。值得注意的是，我们的解码器一次性预测整个未来轨迹，而不进行一步预测，这使得该方法适用于嵌入式边缘部署。我们在两个流行数据集 PIE 和 JAAD 上进行了详细实验和评估，定量结果证明我们所提出的模型在 0.5、1.0 和 1.5 秒三个时间范围内始终具有最低误差，并且相对于现有最先进技术的速度更快。此外，消融实验证明了我们方法的关键多模态配置的影响。

Jul, 2023

MTR++：基于对称场景建模和引导意图查询的多智能体运动预测

本文提出了 Motion TRansformer (MTR) 框架进行自动驾驶中的动态预测，该框架使用可学习的意图查询来提高效率和准确性，适应多种行动方式的需求，同时扩展到多个代理的多模态预测，实现了对高度竞争的运动预测基准的最新表现和有效性的提升。

Jun, 2023

MultiXNet: 多类别、多阶段、多模态运动预测

通过使用激光雷达传感器数据，我们提出了一种名为 MultiXNet 的自动驾驶汽车感知和预测方法，可处理多种交通行为，包括多模态概率分布和轨迹精细矫正等，结果表明它优于现有的最先进方法。

Jun, 2020

多范围变压器的多人三维动作预测

我们提出了一种适用于多人 3D 运动轨迹预测的新型框架，使用包含局部范围编码器和全局范围编码器的 Multi-Range Transformers 模型，可以实现不同人之间的社交互动，且在长期运动预测方面优于现有方法，甚至可以自动将人分成不同的互动组以预测 15 人的运动轨迹。

Nov, 2021