PRIOR：从医学影像和报告中联合学习的原型表示

Jul, 2023

PRIOR：从医学影像和报告中联合学习的原型表示

PRIOR: Prototype Representation Joint Learning from Medical Images and Reports

Pujin Cheng, Li Lin, Junyan Lyu, Yijin Huang, Wenhan Luo...

TL;DR基于对比学习的视觉-语言联合预训练已成为一种成功的表示学习策略，本文提出了一个原型表示学习框架，将医学图像和报告之间的全局和局部对齐结合起来，通过重构被屏蔽的图像和报告来在训练阶段交换跨模态信息，实验结果表明该方法在多个数据集和不同数据集规模下优于其他方法。

Abstract

contrastive learning based vision-language joint pre-training has emerged as a successful representation learning strategy. In this paper, we present a →

发现论文，激发创造

医学视觉表征的对比学习: 来自成对图像和文本

使用自然组合描述文本，无需人工标注医学图像，通过双向对比目标的方法，使用 ConVIRT 进行预训练的医学图像编码器，将与医学图像配对的文本数据结合起来，极大地提高了数据使用效率。

Oct, 2020

医学影像和报告的局部表示联合学习

LoVT是一种面向医学图像的局部表征学习方法，结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习，针对局部任务优化图像预先训练，相比其他常用预训练方法，在18个局部任务的评估框架中表现最佳，因此被认为是优选方法。

Dec, 2021

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练(Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

面向广义医学视觉表示学习的多粒度跨模态对齐

本文提出了一种基于多粒度跨模态对齐的框架，通过利用病理区域级别、实例级别和疾病级别上医学图像和放射学报告之间的自然语义一致性来学习泛化的医学视觉表征，实验结果表明，该方法在涵盖了图像分类、物体检测和语义分割等七个下游医疗图像任务上表现出稳定和卓越的性能。

Oct, 2022

利用时间结构进行生物医学视觉语言处理的学习

本文提出一种名为 BioViL-T 的方法，使用了了同时训练和微调过程中的先前图像和报告，通过 CNN-Transformer 混合多图像编码器与文本模型协同训练，获得了最先进的性能，在单图像和多图像设置下实现了进展分类，短语接地和报告生成，并在疾病分类和句子相似性任务上持续提供改进，并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。

Jan, 2023

医学视觉语言预训练中的多任务配对掩蔽与对齐建模

该研究提出了一种新的医学图像分析解决方案：基于多任务配对掩模对齐（MPMA）的统一 Med-VLP 框架，其中设计了全局和局部对齐（GLA）模块和记忆增强型跨模态融合（MA-CMF）模块，以实现更全面的跨模态交互，并在全部下游任务中优于以前的方法。

May, 2023

利用合成数据进行医学视觉-语言预训练：绕开真实图像的需求

利用合成图像从真实医学报告中生成的医学影像，可以有效地实现医学视觉与语言预训练(VLP)，并且在图像分类、语义分割和目标检测等任务上，利用合成数据的性能与真实数据相当甚至超过。

Oct, 2023

IMITATE: 临床先验引导的分层视觉-语言预训练

为了利用医学报告的层次结构，从医学图像中提取多层次的视觉特征，并通过新的临床信息对比损失实现异构模态学习，我们提出了一种名为IMITATE的新型临床先验指导的视觉语言预训练框架，该框架在五项医学成像下游任务中优于基准方法，突出了整合医学报告的层次结构进行视觉语言对齐的优势。

Oct, 2023

跨模态医学图像-报告检索的掩码对比重建

提出了一种名为蒙版对比与重建（MCR）的高效VLP框架，以蒙版数据作为两个任务的唯一输入，增强任务之间的连接，并显著减少所需的GPU内存和训练时间。通过映射不同的模态到一个公共特征空间，然后进行局部特征聚合，减少细粒度语义信息的损失，从而降低了fine-grained的模态对齐所需要的gpu内存和时间。在MIMIC-CXR数据集上进行的定性和定量实验验证了该方法的有效性，并展示了在医学跨模态检索任务中的最先进性能。

Dec, 2023

解剖结构导向的医学视觉语言预训练

通过视觉语言预训练学习医学视觉表示已取得显著进展，本研究提出了一种以解剖结构为指导的框架（ASG），以解决局部对齐的可解释性和临床相关性不足，以及图像-报告对的内外表示学习不足的问题。通过自动解剖句子对齐，并将发现和存在视为图像标签，该方法在五个公共基准数据集上展示出优于现有方法的实验结果。

Mar, 2024