医学图像和报告之间的无监督多模态表示学习

Nov, 2018

医学图像和报告之间的无监督多模态表示学习

Unsupervised Multimodal Representation Learning across Medical Images and Reports

Tzu-Ming Harry Hsu, Wei-Hung Weng, Willie Boag, Matthew McDermott, Peter Szolovits

TL;DR该研究旨在探索多模态联合嵌入并生成医学影像模态和相关放射学报告，并通过受监督和无监督学习的方式，实现在文档检索任务中的表现，发现只需有限的监督即可获得与完全监督方法类似的结果。

Abstract

joint embeddings between medical imaging modalities and associated radiology reports have the potential to offer significant benefits to t

发现论文，激发创造

学习视觉语义嵌入用于报道胸部 X 光上的异常发现

该论文提出了一种基于交叉模态检索的自动医学图像报告生成方法，该方法可以从报告中识别异常发现，并将它们与无监督聚类和最小规则分组，通过使用提出的有条件构建的视觉-语义嵌入进行图像和小粒度异常发现对齐，其能够更好地检索异常发现并在临床正确性和文本生成度量方面优于现有的生成模型。

Oct, 2020

通过图像和自由文本放射学报告之间的交叉监督实现广义放射图像表示学习

该研究介绍了一种名为REviewing FreE-text Reports for Supervision（REFERS）的交叉监督方法，该方法可以从放射学报告中获得免费的监督信号，并且优于现有的预训练方法，具有在放射科学中推广应用的潜力。

Nov, 2021

医学影像和报告的局部表示联合学习

LoVT是一种面向医学图像的局部表征学习方法，结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习，针对局部任务优化图像预先训练，相比其他常用预训练方法，在18个局部任务的评估框架中表现最佳，因此被认为是优选方法。

Dec, 2021

跨模态记忆网络用于放射学报告生成

本文提出了一种跨模式记忆网络(CMN)来增强医学影像学中放射学报告自动生成的编码器-解码器框架，实验结果表明该模型能够更好地对齐放射图像和文本信息，具有更高的临床指标准确性。

Apr, 2022

面向广义医学视觉表示学习的多粒度跨模态对齐

本文提出了一种基于多粒度跨模态对齐的框架，通过利用病理区域级别、实例级别和疾病级别上医学图像和放射学报告之间的自然语义一致性来学习泛化的医学视觉表征，实验结果表明，该方法在涵盖了图像分类、物体检测和语义分割等七个下游医疗图像任务上表现出稳定和卓越的性能。

Oct, 2022

从放射学报告和X光胸片图像中进行跨模态全局局部表示学习

本文使用公開的印第安納大學放射學報告 (IU-RR) 資料集，訓練具有全局和局部的語言和視覺元素的多模式表示學習方法，進而診斷五種肺病理學，包括肺不脹、心臟肥大、水腫、胸膜積液和實質密度增加。使用CheXpert和CheXphoto這兩種不同的訓練資料集，平均AUC在0.85至0.87之間，這些結果與使用UI-RR的其他研究相比也相當有競爭力。

Jan, 2023

超越图像：胸部X光片报告生成的综合多模态方法

通过结合结构化患者数据和非结构化临床记录，我们提出了一种新颖的多模态深度神经网络框架，用于生成描述医学图像结果的胸部X射线检查报告，并通过引入条件交叉多头注意力模块来融合这些异构数据模态，弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比，实验证明通过使用附加模态可以显著改善结果，在ROUGE-L指标上达到了文献相关最高的性能。此外，我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性，但也强调需要更多的改进以捕捉细微的细节和临床背景。

Nov, 2023

MedCycle: 基于循环一致性的未配对医疗报告生成

通过循环一致的映射函数和医疗报告自编码，本研究提出了一种创新方法，消除了一致标记模式的需求，提高了数据可访问性，并实现了不兼容数据集的应用，从而在无配对的胸部X射线报告生成中取得了优越的语言和临床指标的结果。

Mar, 2024

基于记忆的跨模态语义对齐网络用于放射学报告生成

提出了一种基于记忆的跨模态语义对齐模型（MCSAM），它包括一个良好初始化的长期临床记忆库来学习与疾病相关的表示，以及检索和使用检索到的记忆进行特征整合的先验知识，同时通过交叉模态语义对齐模块（SAM）生成语义视觉特征嵌入，有助于报告生成；通过使用可学习的记忆提示记住解码器在报告生成过程中的状态和附加信息，实验证明该方法在MIMIC-CXR数据集上具有有前景的性能表现。

Mar, 2024

事实序列化增强：胸部X射线报告生成的关键创新

该论文介绍了一种名为Factual Serialization Enhancement (FSE)的新型方法，通过结构实体方法来消除报告中的演示风格词汇，实现胸部X光报告生成，并通过交叉模态对齐学习单模态特征以及从训练集中检索类似历史案例，最终利用交叉模态融合网络从这些案例中查询有价值的信息，提高图像特征和文本解码器生成高质量报告的能力。该方法在MIMIC-CXR和IU X-ray数据集上的实验证明了其在自然语言生成和临床效果度量方面优于现有方法。

May, 2024