医学视觉语言预训练中的多任务配对掩蔽与对齐建模

May, 2023

医学视觉语言预训练中的多任务配对掩蔽与对齐建模

Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training

Ke Zhang, Hanliang Jiang, Jian Zhang, Qingming Huang, Jianping Fan...

TL;DR该研究提出了一种新的医学图像分析解决方案：基于多任务配对掩模对齐（MPMA）的统一 Med-VLP 框架，其中设计了全局和局部对齐（GLA）模块和记忆增强型跨模态融合（MA-CMF）模块，以实现更全面的跨模态交互，并在全部下游任务中优于以前的方法。

Abstract

In recent years, the growing demand for medical imaging diagnosis has brought a significant burden to radiologists. The existing med-vlp methods provide a solution for automated medical image analysis which learn

发现论文，激发创造

多模态表示学习的遮蔽视觉和语言建模

本文研究如何使用掩码信号建模来实现视觉和语言（V + L）表示学习，提出了联合掩码视觉和语言建模的方法，通过不同的模态互相重构，隐式地学习语言标记和图像补丁的交叉模态对齐，并在各种V + L任务中实现了最先进的性能。

Aug, 2022

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练(Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

面向广义医学视觉表示学习的多粒度跨模态对齐

本文提出了一种基于多粒度跨模态对齐的框架，通过利用病理区域级别、实例级别和疾病级别上医学图像和放射学报告之间的自然语义一致性来学习泛化的医学视觉表征，实验结果表明，该方法在涵盖了图像分类、物体检测和语义分割等七个下游医疗图像任务上表现出稳定和卓越的性能。

Oct, 2022

改进基于文本引导的图像修复的跨模态对齐

本研究提出了一种基于视听语言预训练模型和对跨模态对齐知识的改进的跨模态对齐模型的图像修复方法，通过在两个流行的视听语言数据集上的实验表明，该模型相对于其他强竞争对手的性能达到了最佳水平。

Jan, 2023

PRIOR：从医学影像和报告中联合学习的原型表示

基于对比学习的视觉-语言联合预训练已成为一种成功的表示学习策略，本文提出了一个原型表示学习框架，将医学图像和报告之间的全局和局部对齐结合起来，通过重构被屏蔽的图像和报告来在训练阶段交换跨模态信息，实验结果表明该方法在多个数据集和不同数据集规模下优于其他方法。

Jul, 2023

跨模态医学图像-报告检索的掩码对比重建

提出了一种名为蒙版对比与重建（MCR）的高效VLP框架，以蒙版数据作为两个任务的唯一输入，增强任务之间的连接，并显著减少所需的GPU内存和训练时间。通过映射不同的模态到一个公共特征空间，然后进行局部特征聚合，减少细粒度语义信息的损失，从而降低了fine-grained的模态对齐所需要的gpu内存和时间。在MIMIC-CXR数据集上进行的定性和定量实验验证了该方法的有效性，并展示了在医学跨模态检索任务中的最先进性能。

Dec, 2023

语义增强的跨模态遮蔽图像建模及视觉-语言预训练

我们提出了一个语义增强的视觉-语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

基于记忆的跨模态语义对齐网络用于放射学报告生成

提出了一种基于记忆的跨模态语义对齐模型（MCSAM），它包括一个良好初始化的长期临床记忆库来学习与疾病相关的表示，以及检索和使用检索到的记忆进行特征整合的先验知识，同时通过交叉模态语义对齐模块（SAM）生成语义视觉特征嵌入，有助于报告生成；通过使用可学习的记忆提示记住解码器在报告生成过程中的状态和附加信息，实验证明该方法在MIMIC-CXR数据集上具有有前景的性能表现。

Mar, 2024

LoGra-Med：医疗视觉-语言模型的长上下文多图对齐

本研究解决了现有医疗多模态大型语言模型在视觉和语言之间对齐不足的问题。提出的LoGra-Med算法通过强制实施图像模态、对话描述和扩展标题之间的三元组关联，显著提高了模型捕捉上下文语义和跨模态关联的能力。实验结果表明，LoGra-Med在医疗视觉问答任务上表现优异，甚至在仅使用10%数据的情况下超越了现有模型的性能。

Oct, 2024

LoGra-Med：用于医疗视觉语言模型的长上下文多图对齐

本研究针对现有医疗多模态大语言模型在视觉与语言模态间对齐不足的问题，通过提出一种新的多图对齐算法LoGra-Med，强化图像模态、基于对话的描述和扩展标题之间的三元关系。这一创新方法帮助模型更好地捕捉上下文意义和处理语言变异性，实验证明在小数据集下也能超越当前技术水平。

Oct, 2024