MultiMAE: 多模态多任务掩蔽自编码器

Apr, 2022

MultiMAE: 多模态多任务掩蔽自编码器

MultiMAE: Multi-modal Multi-task Masked Autoencoders

Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir

TL;DR提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Abstract

We propose a pre-training strategy called multi-modal multi-task Masked Autoencoders (MultiMAE). It differs from standard Masked Autoencod

multi-modal multi-task masked autoencoders pre-training transfer learning

发现论文，激发创造

CoMAE：基于单模型的小规模 RGB-D 数据混合预训练

本文提出了一种名为 CoMAE 的单模型自监督混合预训练框架，通过交叉模态对比学习和遮蔽图像建模，采用课程学习策略来统一两种流行的自监督表示学习算法，并设计了一个修补程序级别对齐任务来预训练一种单一的编码器，共享两个模态。CoMAE 在 SUN RGB-D 和 NYUDv2 数据集上的实验表明，在仅使用小规模和无标签的训练集进行预训练的情况下，其预训练模型仍然具有与额外的大规模和监督 RGB 数据集预训练的最新方法相竞争的效果。

Feb, 2023

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

自监督先训练用于可迁移多模态感知

这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式，利用 NeRF 支持的遮蔽自动编码器（NS-MAE）来提供高效且高性能的微调的预训练模型初始化，通过在神经辐射场（NeRF）中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据，证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性，该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估，例如 3D 对象检测和 BEV 地图分割。

May, 2024

PiMAE: 基于点云和图像的交互式遮罩自编码器用于 3D 物体检测

本文提出了 PiMAE，一个自我监督的预训练框架，旨在通过三个方面促进 3D 和 2D 交互，以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后，我们发现交互式学习点 - 图像特征是不平凡的，并通过 2.9％，6.7％和 2.4％显着提高了多个 3D 检测器，2D 检测器和少样本分类器。

Mar, 2023

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

MixMAE: 混合和掩蔽自编码器用于高效的分层视觉 Transformer 预训练

本文提出了一种名为 MixMAE 的方法，可以有效地预先训练不同的分层视觉转换器，并取代掩蔽图像建模（MIM）方法，仍然可以对受损图像进行建模，而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明，使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。

May, 2022

多模态掩蔽自编码器用于动态情绪识别

本文提出了一种名为多模态蒙特卡洛自动编码器（MultiMAE-DER）的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型，通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能，解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比，MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率（WAR）提高了 4.41％，在 CREMAD 上提高了 2.06％。此外，与多模态自监督学习的最新模型相比，MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86％。

Apr, 2024

基于混合簇条件专家的任务定制化遮蔽自编码器

提出了一种新的基于混合的聚类条件专家（MoCE）的 MAE 预训练范式，为不同的下游任务提供定制化的预训练模型，通过使用聚类条件门将每个专家仅与语义相关的图像进行训练，从而克服了 MAE 可扩展性中的负迁移问题。

Feb, 2024

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022