CVPRApr, 2024

MoST: 多模态场景编码用于动作预测

TL;DR通过将视觉世界划分为场景元素,并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素,我们提出了一种能够高效编码多帧多模态观察的方法,并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于现有技术。