CMViM：用于 AD 分类的 3D 多模态表征学习的对比掩码 Vim 自编码器

Mar, 2024

CMViM：用于 AD 分类的 3D 多模态表征学习的对比掩码 Vim 自编码器

CMViM: Contrastive Masked Vim Autoencoder for 3D Multi-modal Representation Learning for AD classification

Guangqian Yang, Kangrui Du, Zhihan Yang, Ye Du, Yongping Zheng...

TL;DR我们提出了一种针对 3D 多模态数据的首个高效表示学习方法 Contrastive Masked Vim Autoencoder（CMViM），该方法利用传统的 Vision Mamba（Vim）自动编码器结构实现对三维医学图像的统一多模态表示，通过内部对比度学习模块和跨模态对比度学习模块来增强其判别特征建模能力，并在 AD 分类任务中验证，与其他最先进方法相比，提高了 2.7％的 AUC 性能。

Abstract

alzheimer's disease (AD) is an incurable neurodegenerative condition leading to cognitive and functional deterioration. Given the lack of a cure, prompt and precise AD diagnosis is vital, a complex process depend

alzheimer's disease neurodegenerative condition multi-modal representation learning 3d medical images contrastive masked vim autoencoder

发现论文，激发创造

M$^{3}$3D：使用多模态掩蔽自编码器学习 2D 图像和视频的 3D 先验

提出了一种名为 M$^{3}$3D 的新的预训练策略，该策略基于基于多模态遮蔽自编码器，可以利用三维先验和学习的跨模态表示，以增强颜色 - 深度数据之间的对应关系，并能在各种下游任务中提高性能。

Sep, 2023

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

MiM: 3D 医学图像分析的层叠掩模自监督预训练

提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask（MiM）”，通过学习来自不同尺度的分层视觉标记的辨别性表示，在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能，此外，大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。

Apr, 2024

MIM4D：多视角视频遮蔽建模的自动驾驶表示学习

从大规模多视角视频数据中学习强大且可扩展的视觉表征仍然是计算机视觉和自动驾驶领域的一项挑战。我们提出了 MIM4D，一种基于双重遮罩图像建模（MIM）的新的预训练范例，它通过训练遮罩的多视角视频输入来利用空间和时间关系，从而构建伪 3D 特征并进行监督学习，以解决缺乏密集 3D 监测的问题。通过采用 3D 体积可微分渲染来学习几何表征，MIM4D 在自动驾驶中的可视表征学习任务中取得了最先进的性能，显著提高了多个下游任务的表现。

Mar, 2024

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

跨模态医学图像 - 报告检索的掩码对比重建

提出了一种名为蒙版对比与重建（MCR）的高效 VLP 框架，以蒙版数据作为两个任务的唯一输入，增强任务之间的连接，并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间，然后进行局部特征聚合，减少细粒度语义信息的损失，从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性，并展示了在医学跨模态检索任务中的最先进性能。

Dec, 2023

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

PiMAE: 基于点云和图像的交互式遮罩自编码器用于 3D 物体检测

本文提出了 PiMAE，一个自我监督的预训练框架，旨在通过三个方面促进 3D 和 2D 交互，以提高现有作品中的交叉模态协同作用。在 SUN RGB-D 和 ScannetV2 上进行广泛的实验后，我们发现交互式学习点 - 图像特征是不平凡的，并通过 2.9％，6.7％和 2.4％显着提高了多个 3D 检测器，2D 检测器和少样本分类器。

Mar, 2023