结构信息引导的多模态预训练用于以车辆为中心的感知

AAAIDec, 2023

结构信息引导的多模态预训练用于以车辆为中心的感知

Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception

Xiao Wang, Wentao Wu, Chenglong Li, Zhicheng Zhao, Zhe Chen...

TL;DR我们提出了一种新颖的面向车辆的预训练框架称为 VehicleMAE，它融合了来自车辆轮廓信息的空间结构和来自信息性高级自然语言描述的语义结构，以实现有效的车辆外观重建。我们构建了一个大规模的数据集 Autobot1M，包含约 1M 辆车图像和 12693 个文本信息，用于我们的模型的预训练。通过对四个基于车辆的下游任务的广泛实验，充分验证了我们的 VehicleMAE 的有效性。

Abstract

Understanding vehicles in images is important for various applications such as intelligent transportation and self-driving system. Existing vehicle-centric works typically pre-train models on large-scale classification datasets and then fine-tune them for specific downstream tasks. How

vehicles pre-training framework structural information vehicle reconstruction

发现论文，激发创造

面向视觉的三维目标检测的几何感知预训练

提出了一种名为 GAPretrain 的几何意识预训练框架，通过使用几何丰富的模态和来自 LiDAR 点云的结构提示，实现跨不同模态之间的属性转移，从而解决多镜头自动驾驶中图像和视角不一致的问题，实现了很好的效果。

Apr, 2023

SatMAE: 为时间序列和多光谱卫星图像预训练 Transformers

通过使用遮蔽自动编码器（MAE）的卫星图像的预训练框架 SatMAE，我们结合时间嵌入和分组打包多光谱数据以提高预训练能力，进一步提高基准数据集上的监督学习性能（最高可达 7%），并在后续的遥感分类任务中表现出强大的转移学习能力（最高可达 14%）。

Jul, 2022

面向移动机器人导航的预训练遮蔽图像模型

利用基础视觉网络，预测环境结构模式，实现移动机器人的导航和探索。

Oct, 2023

MMEarth: 多模态预测任务研究地理空间表示学习

利用未标记的地球观测数据创建多模态预训练数据集，通过多模态预训练任务，提出了改进的 ConvNeXt V2 架构的 Multi-Pretext Masked Autoencoder (MP-MAE) 方法，证明多模态预训练可以显著提高图像分类和语义分割的性能，以及标签和参数的效率。

May, 2024

自监督先训练用于可迁移多模态感知

这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

May, 2024

车辆再识别的属性引导特征学习

本篇论文提出了一种利用有意义的属性指导（例如相机视角、车辆类型和颜色）的新型深度网络架构来解决车辆再辨识中的问题，并设计了一种特定视角的生成对抗网络来生成多视角车辆图像。实验结果表明，该方法在 VeRi-776 和 VehicleID 数据集上实现了显著的性能提升，成为车辆再辨识领域的新的最佳性能算法。

May, 2019

重新思考用于多光谱卫星图像的 Transformer 预训练

SatMAE++ 是一种多尺度的远程感知图像预训练方法，通过利用多模态数据和卷积上采样块在不同尺度上重构图像，达到了光学和多光谱遥感数据的同等有效性，并在大规模数据集上实现了最先进性能。

Mar, 2024

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

结构引导的车道线检测

本文提出了一个基于深度学习和结构引导的车道检测框架，采用实例分割表示车道，使用自上而下的消失点引导机制，并引入多层结构约束，在公开基准数据集上表现优于现有方法。

May, 2021

CoMAE：基于单模型的小规模 RGB-D 数据混合预训练

本文提出了一种名为 CoMAE 的单模型自监督混合预训练框架，通过交叉模态对比学习和遮蔽图像建模，采用课程学习策略来统一两种流行的自监督表示学习算法，并设计了一个修补程序级别对齐任务来预训练一种单一的编码器，共享两个模态。CoMAE 在 SUN RGB-D 和 NYUDv2 数据集上的实验表明，在仅使用小规模和无标签的训练集进行预训练的情况下，其预训练模型仍然具有与额外的大规模和监督 RGB 数据集预训练的最新方法相竞争的效果。

Feb, 2023