AAAIDec, 2023

结构信息引导的多模态预训练用于以车辆为中心的感知

TL;DR我们提出了一种新颖的面向车辆的预训练框架称为 VehicleMAE,它融合了来自车辆轮廓信息的空间结构和来自信息性高级自然语言描述的语义结构,以实现有效的车辆外观重建。我们构建了一个大规模的数据集 Autobot1M,包含约 1M 辆车图像和 12693 个文本信息,用于我们的模型的预训练。通过对四个基于车辆的下游任务的广泛实验,充分验证了我们的 VehicleMAE 的有效性。