UniM$^2$AE:自主驾驶中统一的三维感知的多模态掩码自编码器
提出了一种称为 MultiMAE 的预训练策略,通过掩蔽解决了网络输入多样性和预测任务多样性的问题,从而实现可靠的跨模态与任务预测编码和转移学习。
Apr, 2022
本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。
May, 2022
这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式,利用 NeRF 支持的遮蔽自动编码器(NS-MAE)来提供高效且高性能的微调的预训练模型初始化,通过在神经辐射场(NeRF)中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式输入数据,证明了 NS-MAE 表示在不同的多模式和单模式感知模型之间的良好可转移性,该可转移性在不同程度的微调标签数据下通过各种 3D 感知下游任务进行了评估,例如 3D 对象检测和 BEV 地图分割。
May, 2024
该论文提出了一种统一的自监督预训练框架,通过在神经辐射场 (NeRF) 中进行掩蔽多模态重建,实现可传输的多模态感知表示学习。实验证明,通过该方法学习到的表示对于多样化的三维感知下游任务(包括三维物体检测和 BEV 地图分割)具有良好的可迁移性,并且可享受掩蔽自编码器和神经辐射场机制的协同效应。
Nov, 2023
通过使用 3D 到多视图掩码自编码器,充分利用 3D 点云的多模属性,提出了一种全新的方法,这不仅丰富了模型对几何结构的理解,还利用了点云的固有多模性能,有效地改进了各种任务,包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。
Nov, 2023
本文提出了一种名为多模态蒙特卡洛自动编码器(MultiMAE-DER)的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型,通过简单直接的微调实现 MultiMAE-DER。该方法通过优化六种多模态输入序列融合策略来提高 MultiMAE-DER 的性能,解决了跨域数据中的动态特征相关性问题。与现有的多模态监督学习模型相比,MultiMAE-DER 在 RAVDESS 数据集上的加权平均召回率(WAR)提高了 4.41%,在 CREMAD 上提高了 2.06%。此外,与多模态自监督学习的最新模型相比,MultiMAE-DER 在 IEMOCAP 数据集上的 WAR 提高了 1.86%。
Apr, 2024
本文提出了 PiMAE,一个自我监督的预训练框架,旨在通过三个方面促进 3D 和 2D 交互,以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后,我们发现交互式学习点 - 图像特征是不平凡的,并通过 2.9%,6.7%和 2.4%显着提高了多个 3D 检测器,2D 检测器和少样本分类器。
Mar, 2023
提出了一种基于 M$^3$AE 的自监督学习模型,通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型,并在三个任务上实现了最先进水平的结果。
Sep, 2022
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
提出 Point-M2AE,一种新的多层次自监督学习框架,用于使用 Masked Autoencoders 预训练 3D 点云的分层表示学习,其具有优越的性能并超过了其他完全训练的方法。
May, 2022