MultiMAE: 多模态多任务掩蔽自编码器
本文提出了一种名为 CoMAE 的单模型自监督混合预训练框架,通过交叉模态对比学习和遮蔽图像建模,采用课程学习策略来统一两种流行的自监督表示学习算法,并设计了一个修补程序级别对齐任务来预训练一种单一的编码器,共享两个模态。CoMAE 在 SUN RGB-D 和 NYUDv2 数据集上的实验表明,在仅使用小规模和无标签的训练集进行预训练的情况下,其预训练模型仍然具有与额外的大规模和监督 RGB 数据集预训练的最新方法相竞争的效果。
Feb, 2023
本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。
May, 2022
这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式,利用 NeRF 支持的遮蔽自动编码器(NS-MAE)来提供高效且高性能的微调的预训练模型初始化,通过在神经辐射场(NeRF)中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据,证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性,该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估,例如 3D 对象检测和 BEV 地图分割。
May, 2024
本文提出了 PiMAE,一个自我监督的预训练框架,旨在通过三个方面促进 3D 和 2D 交互,以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后,我们发现交互式学习点 - 图像特征是不平凡的,并通过 2.9%,6.7%和 2.4%显着提高了多个 3D 检测器,2D 检测器和少样本分类器。
Mar, 2023
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.
Feb, 2024
该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器(UniM$^2$AE)模型,通过将图像与激光雷达点云的特征融合,实现了对多模态数据的高效处理,提高了三维物体检测和鸟瞰图分割的效果。
Aug, 2023
本文提出了一种名为 MixMAE 的方法,可以有效地预先训练不同的分层视觉转换器,并取代掩蔽图像建模(MIM)方法,仍然可以对受损图像进行建模,而不会导致训练速度慢和预处理 - 微调不一致性问题。实验结果表明,使用 MixMAE 进行预处理可在各种分层 Transformer 架构上学习高质量的视觉表示。
May, 2022
本文提出了一种名为多模态蒙特卡洛自动编码器(MultiMAE-DER)的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型,通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能,解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比,MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率(WAR)提高了 4.41%,在 CREMAD 上提高了 2.06%。此外,与多模态自监督学习的最新模型相比,MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。
Apr, 2024
提出了一种新的基于混合的聚类条件专家(MoCE)的 MAE 预训练范式,为不同的下游任务提供定制化的预训练模型,通过使用聚类条件门将每个专家仅与语义相关的图像进行训练,从而克服了 MAE 可扩展性中的负迁移问题。
Feb, 2024
提出了一种基于 M$^3$AE 的自监督学习模型,通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型,并在三个任务上实现了最先进水平的结果。
Sep, 2022