自监督先训练用于可迁移多模态感知

May, 2024

自监督先训练用于可迁移多模态感知

Self-supervised Pre-training for Transferable Multi-modal Perception

Xiaohao Xu, Tianyi Zhang, Jinrong Yang, Matthew Johnson-Roberson, Xiaonan Huang

TL;DR这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

Abstract

In autonomous driving, multi-modal perception models leveraging inputs from multiple sensors exhibit strong robustness in degraded environments. However, these models face challenges in efficiently and effectivel

autonomous driving multi-modal perception models nerf-supervised masked auto encoder transferable multi-modal representation learning self-supervised representation learning

发现论文，激发创造

实现可传递的多模态感知表示学习自主性：NeRF-Supervised 遮蔽自动编码器

该论文提出了一种统一的自监督预训练框架，通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建，实现可传输的多模态感知表示学习。实验证明，通过该方法学习到的表示对于多样化的三维感知下游任务（包括三维物体检测和 BEV 地图分割）具有良好的可迁移性，并且可享受掩蔽自编码器和神经辐射场机制的协同效应。

Nov, 2023

NeRF-MAE: 自监督三维表示学习的遮罩自动编码器用于神经辐射场

神经场在计算机视觉和机器人技术中表现出色，能够理解三维视觉世界，例如推断语义、几何和动态。我们使用神经场进行自监督预训练，尤其是使用遮盖的自动编码器从 RGB 图像生成有效的三维表示，然后将标准的三维视觉 Transformer 应用于 NeRF 来进行特定形式的训练。我们利用 NeRF 的体积网格作为 Transformer 的密集输入，与像点云等其他三维表示进行对比。通过将相机轨迹用于采样，我们提取了可以规范化不同域中场景的显式表示。我们的目标是通过遮盖 NeRF 的辐射和密度网格的随机补丁并使用标准的三维 Swin Transformer 重建这些补丁，从而使模型能够学习完整场景的语义和空间结构。我们在自己提出的 posed-RGB 数据上规模化地对这个表示进行预训练，总共涉及超过 160 万幅图像。预训练后，编码器可以用于有效的三维迁移学习。我们提出的 NeRF-MAE 自监督预训练方法在各种具有挑战性的三维任务上表现出色，利用未标记的 posed 2D 数据进行预训练，相较于自监督三维预训练和 NeRF 场景理解基线，在 Front3D 和 ScanNet 数据集上的三维物体检测的 AP50 和 AP25 绝对性能提升分别超过 20％和 8％。

Apr, 2024

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

模态不可知的元学习遮蔽自编码器的自监督学习

通过将 Masked Auto-Encoder（MAE）作为一个统一的、与模态无关的自监督学习框架，通过元学习对其进行解读，并从统一提高其在不同模态下的自监督学习的动机出发，我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务，并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读，我们提出了集成两种先进的元学习技术的方法。首先，我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后，我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐，从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准（称为 DABS）中的优越性，明显优于之前的基线。

Oct, 2023

Fus-MAE：一种基于交叉注意力的遥感掩码自编码器数据融合方法

Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.

Jan, 2024

远程感知中基于特征引导的遮罩自编码器实现自监督学习

以受限遮蔽图像模型为指导的自主学习在遥感中预训练视觉转换器方面引起了广泛关注。在本文中，我们探讨了光谱和空间遥感图像特征作为改进的自编码器重建目标。实验结果说明了 FG-MAE 在 SAR 图像方面的特殊增强效果，同时展示了 FG-MAE 的良好可扩展性，并发布了首批用于中分辨率 SAR 和多光谱图像的预训练视觉转换器。

Oct, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

CoMAE：基于单模型的小规模 RGB-D 数据混合预训练

本文提出了一种名为 CoMAE 的单模型自监督混合预训练框架，通过交叉模态对比学习和遮蔽图像建模，采用课程学习策略来统一两种流行的自监督表示学习算法，并设计了一个修补程序级别对齐任务来预训练一种单一的编码器，共享两个模态。CoMAE 在 SUN RGB-D 和 NYUDv2 数据集上的实验表明，在仅使用小规模和无标签的训练集进行预训练的情况下，其预训练模型仍然具有与额外的大规模和监督 RGB 数据集预训练的最新方法相竞争的效果。

Feb, 2023

基于混合簇条件专家的任务定制化遮蔽自编码器

提出了一种新的基于混合的聚类条件专家（MoCE）的 MAE 预训练范式，为不同的下游任务提供定制化的预训练模型，通过使用聚类条件门将每个专家仅与语义相关的图像进行训练，从而克服了 MAE 可扩展性中的负迁移问题。

Feb, 2024