MedPromptX: 融入视听提示的胸部 X 射线诊断

Mar, 2024

MedPromptX: 融入视听提示的胸部 X 射线诊断

MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

Mai A. Shaaban, Adnan Khan, Mohammad Yaqub

TL;DR利用多模态大型语言模型、少样本训练提示、视觉定位将影像与电子病历数据结合，该研究提出了 MedPromptX 模型，用于胸部 X 射线诊断，有效提高了异常的识别能力。

Abstract

Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces \textbf{MedPromptX}, the first model to

chest x-ray diagnosis multimodal large language models few-shot prompting visual grounding electronic health records

发现论文，激发创造

使用预训练的 LLM 生成结构化胸部 X 射线报告的提示引导方法

用预训练的大型语言模型进行指导的方法可以生成基于解剖学和临床提示的结构化胸部 X 射线报告，以实现医疗报告的自动化生成和临床的交互性。

Apr, 2024

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型，包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性，并在 MIMIC 数据集上的性能超越了基准模型。此外，该研究还介绍了一种创新的文本到 CXR 合成方法，利用了 Stable Diffusion（SD）架构内的指令跟随能力，无需额外参数，使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。

Dec, 2023

CXR-LLaVA：用于解读胸部 X 光图像的多模式大型语言模型

利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像，并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调，该模型在胸部 X 射线图像解释中显示了很好的潜力。

Oct, 2023

XrayGPT: 医学视觉语言模型用于胸部 X 光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉 - 语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024

MEDBind：统一语言与多模式医疗数据嵌入

通过联合心胸纵观文本（MEDBind）, 我们实现了心胸 X 射线（CXR）、心电图（ECG）和医疗文本的联合嵌入，并通过模态 - 文本对的对比损失函数 Edge-Modality Contrastive Loss 实现了 CXR、ECG 和文本的统一嵌入空间，这一无缝整合通过将 CXR 和 ECG 嵌入直接集成到一个大型语言模型中以实现多模态提示调优，优化了下游任务的性能。

Mar, 2024

预训练视觉语言模型中的伪提示生成，面向多标签医学图像分类

该研究介绍了一个新的提高医学图像识别性能的方法，利用预训练视觉 - 语言模型和伪提示生成来实现多标签分类和自动诊断，对比实验证明了其在多标签胸部放射图数据集上的卓越性能。

May, 2024

CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像 - 标签对为图像 - 文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL 和 TCL，来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外，扩大数据集能够提高我们预训练模型的分类性能，尽管在检索性能方面有所牺牲。代码可在此网址获得。

Oct, 2023

MedPrompt：跨模态提示多任务医学影像翻译

跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt，一种多任务框架，可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块，我们能够有效地编码跨模态提示。通过集成 Transformer 模型，增强了对不同模态间全局特征的提取，实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。

Oct, 2023