医学视觉与语言预训练的多模态掩码自编码器

Sep, 2022

医学视觉与语言预训练的多模态掩码自编码器

Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training

Zhihong Chen, Yuhao Du, Jinpeng Hu, Yang Liu, Guanbin Li...

TL;DR提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Abstract

medical vision-and-language pre-training provides a feasible solution to extract effective vision-and-language representations from medical images and texts. However, few studies have been dedicated to this field

medical vision-and-language self-supervised learning multi-modal masked autoencoders cross-modal domain knowledge medical images

发现论文，激发创造

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022

MedFLIP：医学视觉与语言自监督快速预训练之基于掩码自编码器的方法

介绍了一种名为 MedFLIP 的快速语言 - 图像预训练方法，利用 Masked Autoencoders (MAEs) 和多模态数据进行了零样本学习，提高了医学诊断中从有限数据中学习的能力，通过实验证实了使用语言将提高医学图像分析的零样本性能，MedFLIP 在标记过程的缩放方面取得了进展，为医学图像分析提供了快速准确的路径，通过实验证明了 MedFLIP 的高效性能提升，为未来的研究和应用在医学诊断领域设定了充分探索的标准。

Mar, 2024

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练，用于医学视觉问答

本文提出了一种新的自我监督方法来处理医学图像视觉问答问题，通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示，预训练模型后将其转移到下游的医学 VQA 任务中，已在三个公开的医学 VQA 数据集上取得了最先进的表现，具有显着的准确度提高。

Jul, 2023

医学视觉问答的自监督视觉语言预训练

本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法，应用于医学图像字幕数据集的预训练，并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。

Nov, 2022

UniM$^2$AE：自主驾驶中统一的三维感知的多模态掩码自编码器

该篇研究论文提出了一种用于自动驾驶的多模态蒙版自动编码器（UniM$^2$AE）模型，通过将图像与激光雷达点云的特征融合，实现了对多模态数据的高效处理，提高了三维物体检测和鸟瞰图分割的效果。

Aug, 2023

全局 - 局部蒙版自编码器在体积医学图像分割中的应用

提出了一种名为全局局部遮挡自编码器 (GL-MAE) 的简单而有效的自监督预训练策略，它可以重构遮挡的全局和局部体积，并通过全局引导一致性学习和局部到全局的对应加强和稳定掩蔽体积的表示学习。结果表明，在各种体积医学图像细分任务上，与其他自监督算法相比，该方法具有卓越的表现，即使注释很少也是如此。

Jun, 2023

点云自监督学习：基于三维到多视角遮蔽自编码器

通过使用 3D 到多视图掩码自编码器，充分利用 3D 点云的多模属性，提出了一种全新的方法，这不仅丰富了模型对几何结构的理解，还利用了点云的固有多模性能，有效地改进了各种任务，包括 3D 对象分类、少样本学习、部分分割和 3D 对象检测。

Nov, 2023

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

医学视觉语言预训练中的多任务配对掩蔽与对齐建模

该研究提出了一种新的医学图像分析解决方案：基于多任务配对掩模对齐（MPMA）的统一 Med-VLP 框架，其中设计了全局和局部对齐（GLA）模块和记忆增强型跨模态融合（MA-CMF）模块，以实现更全面的跨模态交互，并在全部下游任务中优于以前的方法。

May, 2023