MoST: 多模态场景编码用于动作预测

CVPRApr, 2024

MoST: 多模态场景编码用于动作预测

MoST: Multi-modality Scene Tokenization for Motion Prediction

Norman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang...

TL;DR通过将视觉世界划分为场景元素，并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素，我们提出了一种能够高效编码多帧多模态观察的方法，并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于现有技术。

Abstract

Many existing motion prediction approaches rely on symbolic perception outputs to generate agent trajectories, such as bounding boxes, road graph information and traffic lights. This symbolic representation is a

motion prediction symbolic perception scene elements image foundation model lidar neural network

发现论文，激发创造

基于开放词汇的情景和文本背景下的基础人体运动生成（GHOST）

本文提出了一种方法，将开放词汇场景编码器与架构相结合，建立了文本和场景之间的强大连接；方法通过知识蒸馏从现有的开放词汇语义图像分割模型预训练场景编码器，确保了一个共享的文本 - 场景特征空间，并通过引入两种新的正则化损失，用于回归目标对象的类别和尺寸，在条件运动生成时对场景编码器进行微调；通过在 HUMANISE 数据集上进行的评估和知觉研究，我们的方法相比先前最先进的基准模型，可以使目标对象距离指标减少高达 30%；此外，我们的方法还能无缝适应未来提供每个像素文本对齐特征的 2D 分割方法。

Apr, 2024

MotionLM: 多智能体运动预测作为语言建模

可靠地预测道路行为是自动驾驶车辆安全规划的关键组成部分。本研究将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测视为一个语言建模任务。我们的模型 MotionLM 具有多个优势：首先，它不需要锚点或明确的潜在变量优化来学习多模态分布；其次，我们利用标准的语言建模目标，通过最大化序列令牌的平均对数概率来实现；此外，该模型的顺序分解使得它能够进行时间因果条件推断。在 Waymo 开放动态数据集上，所提出的方法在多智能体运动预测方面取得了新的最先进性能，排名第一。

Sep, 2023

面向场景的动态预测知识转移

通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理，提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法，并在实验中证明了其有效性。

Mar, 2016

开放词汇场景解析

本文提出了一种基于图像像素和词汇概念嵌入框架的解决方案，通过试验 ADE20K 数据集来验证其在识别各种场景和物体方面的开放词汇预测能力和解释性，该方案涉及物体识别、开放词汇解析、图像像素和词汇嵌入、语义关系等关键词。

Mar, 2017

以对象级别知识将世界划分为 Token，以解决自动驾驶中的长尾事件

提出了一种名为 TOKEN 的多模态大语言模型（MM-LLM），通过在长尾场景中对传统的端到端驾驶模型进行优化，将世界分解为物体级知识的令牌化，有效缓解了数据稀缺和低效的标记问题，并实现了在基于常识的推理能力上的优越表现。

Jul, 2024

MultiXNet: 多类别、多阶段、多模态运动预测

通过使用激光雷达传感器数据，我们提出了一种名为 MultiXNet 的自动驾驶汽车感知和预测方法，可处理多种交通行为，包括多模态概率分布和轨迹精细矫正等，结果表明它优于现有的最先进方法。

Jun, 2020

TokenMotion: 基于可学习的令牌选择的运动引导视觉变换器用于视频伪装物体检测

介绍了一种基于 Transformer 模型的 TokenMotion（TMNet），通过可学习的令牌选择提取运动引导特征，提升视频伪装对象检测的性能，在具有挑战性的 MoCA-Mask 数据集上，TMNet 在 VCOD 中实现了最先进的性能，加权 F-measure 提高了 12.8％，S-measure 提高了 8.4％，平均 IoU 提升了 10.7％，结果表明利用运动引导特征和可学习的令牌选择能够解决复杂的 VCOD 任务。

Nov, 2023

OpenScene: 利用开放式词汇的 3D 场景理解

使用 OpenScene 和 zero-shot 方法，借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中，以达到不确定性的训练和开放词汇量的查询场景的目的。

Nov, 2022

自动驾驶的共享跨模态轨迹预测

本文提出 Cross-Modal Embedding 框架，以利用多个输入模式的信息来解决自动驾驶系统中的交通代理的未来轨迹预测问题。该方法在训练时学习将一组互补特征嵌入到共享潜在空间中，并利用多个传感器模态进行优化，在测试时可利用单个输入模态生成预测，并取得了很好的效果。

Nov, 2020

自主驾驶的交叉模态轨迹预测

本文提出了一种基于跨模态嵌入框架的自动驾驶预测交通代理未来轨迹的方法，利用多种输入模式和相关传感器来预测未来轨迹，具有较好的预测效果。

Apr, 2020