DeViDe：基于分面的医学知识，以提升医学视觉 - 语言预训练

Apr, 2024

DeViDe：基于分面的医学知识，以提升医学视觉 - 语言预训练

DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

Haozhe Luo, Ziyu Zhou, Corentin Royer, Anjany Sekuboyina, Bjoern Menze

TL;DR在胸片 X 光的视觉语言预训练方面取得了显著进展，主要通过利用配对的放射照片和放射学报告。为了解决医学知识编码的挑战，我们提出了一种新颖的基于 Transformer 的方法 DeViDe，它利用来自开放网络的放射照片描述。DeViDe 将具体定义和放射学报告与开放网络中疾病的通用视觉特征相结合，提供了对知识的整体快照。在零样本设置下，DeViDe 在外部数据集上表现出与全监督模型相当的性能，并在三个大规模数据集上达到了最先进的结果。另外，将 DeViDe 在四个下游任务和六个分割任务上微调，展示了其在不同分布的数据上优越的性能。

Abstract

vision-language pre-training for chest x-rays has made significant strides, primarily by utilizing paired radiographs and radiology reports. However, existing approaches often face challenges in encoding

vision-language pre-training chest x-rays devide medical knowledge radiographic descriptions

发现论文，激发创造

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

基于多视图影像融合和医学概念增强的自动放射学报告生成

提出了一种基于深度学习技术的生成式编码解码模型，通过对大量胸部 X 光图像进行预先训练并提取医疗概念，结合词级别的注意力机制，成功生成精准较为自然的放射学报告。

Jul, 2019

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

MedKLIP: 医学知识增强的语言 - 图像预训练

该研究论文提出了基于医学图像文本匹配的预训练方法，利用三元组信息和医学专有知识进行医疗分类和定位，取得了比其他方法更好的分类结果。

Jan, 2023

强化视觉 - 语言基础模型：关键语义知识强调的报告优化

通过提出强调关键语义知识的报告细化方法，本文开发了一种新颖的迭代式视觉 - 语言表示学习框架，从而对原始放射学报告进行细化，突出显示关键信息，并逐渐提取对细粒度分析任务至关重要的关键信息，从而验证了该框架在各种下游医学图像分析任务中的有效性，并展示了其在不同临床应用中的鼓舞人心的潜力。

Jan, 2024

DeViL: 将视觉特征解码为语言

我们提出了 DeViL 方法，该方法利用后续解释方法在深度神经网络决策过程中提供了自然语言描述，通过将视觉特征解码为语言，突显了不同层次的网络中视觉特征的归属位置，并在图像和文本之间进行转换，生成视觉网络不同层次的文本描述。

Sep, 2023

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023

将预训练的视觉语言基础模型应用于医学图像领域

本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中，通过研究 Stable Diffusion 模型的子组件，进而生成医学影像，并通过定量和定性的方法对模型效果进行评估。

Oct, 2022

XrayGPT: 医学视觉语言模型用于胸部 X 光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉 - 语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023