MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

Dec, 2023

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

MedXChat: Bridging CXR Modalities with a Unified Multimodal Large Model

Ling Yang, Zhanyu Wang, Luping Zhou

TL;DRMedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型，包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性，并在 MIMIC 数据集上的性能超越了基准模型。此外，该研究还介绍了一种创新的文本到 CXR 合成方法，利用了 Stable Diffusion（SD）架构内的指令跟随能力，无需额外参数，使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。

Abstract

Despite the success of large language models (LLMs) in general image tasks, a gap persists in the medical field for a multimodal large model adept at handling the nuanced diversity of →

large language models multimodal large model medical images cxr-to-report generation text-to-cxr synthesis

发现论文，激发创造

CXR-LLaVA：用于解读胸部 X 光图像的多模式大型语言模型

利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像，并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调，该模型在胸部 X 射线图像解释中显示了很好的潜力。

Oct, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

MAIRA-1: 用于放射学报告生成的专业大型多模态模型

我们提出了一种放射学特定的多模态模型，用于从胸部 X 线片 (CXR) 生成放射学报告。我们的工作基于这样一个观点，即大型语言模型可以通过与预训练的视觉编码器对齐来具备多模态能力。在自然图像上，这已被证明可以使多模态模型具有图像理解和描述能力。我们提出的模型 (MAIRA-1) 结合了一个特定于 CXR 的图像编码器和一个基于 Vicuna-7B 的精调大型语言模型，以及基于文本的数据增强方法，以产生具有最先进质量的报告。具体而言，MAIRA-1 在与放射科医生对齐的 RadCliQ 指标和所有考虑的词汇指标上均有显著提高。对模型输出进行手动审核显示出生成报告的流畅性和准确性，同时揭示了现有评估方法未捕捉到的故障模式。更多信息和资源可在项目网站中找到：this https URL。

Nov, 2023

MedPromptX: 融入视听提示的胸部 X 射线诊断

利用多模态大型语言模型、少样本训练提示、视觉定位将影像与电子病历数据结合，该研究提出了 MedPromptX 模型，用于胸部 X 射线诊断，有效提高了异常的识别能力。

Mar, 2024

超越图像：胸部 X 光片报告生成的综合多模态方法

通过结合结构化患者数据和非结构化临床记录，我们提出了一种新颖的多模态深度神经网络框架，用于生成描述医学图像结果的胸部 X 射线检查报告，并通过引入条件交叉多头注意力模块来融合这些异构数据模态，弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比，实验证明通过使用附加模态可以显著改善结果，在 ROUGE-L 指标上达到了文献相关最高的性能。此外，我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性，但也强调需要更多的改进以捕捉细微的细节和临床背景。

Nov, 2023

XrayGPT: 医学视觉语言模型用于胸部 X 光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉 - 语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023

训练小型多模态模型以弥合生物医学能力差距：放射学成像的案例研究

利用模块化方法针对医学领域使用开源小型多模态模型来解决大规模基础模型在临床需求中存在的问题，并在放射学成像中展示了 LLaVA-Rad 模型的最新结果和其在报告生成和跨模态检索中的性能优势，成为真实世界临床应用的前景工具。

Mar, 2024

ChatRadio-Valuer：基于多机构和多系统数据的通用放射学报告生成的聊天型大语言模型

ChatRadio-Valuer 是基于大型语言模型的自动生成放射学报告的模型，通过有监督的微调、模型自适应以及临床级事件的多系统评估，它在疾病诊断方面相比 ChatGPT 和 GPT-4 等现有模型表现更佳，提供了一种有效的提升模型泛化性能和减轻专家注释工作量的方式，从而推动放射学报告的临床 AI 应用的推广。

Oct, 2023

ChatBridge：利用大型语言模型作为语言催化剂桥接语言形式

本文提出了一种名为 ChatBridge 的多模态语言模型，利用语言的表达能力作为各种模态之间的桥梁，从而实现多种任务的感知。ChatBridge 利用大型语言模型（LLM）的零 - shot 能力来处理多样化的多模态输入，尤其是在涵盖文本、图像、视频和音频模态的 16 种多模态任务中展现出良好的强化学习效果。

May, 2023

探索多模态大型语言模型用于放射学报告错误检查

该研究通过多模态大型语言模型（LLMs）作为辅助工具，检视放射科医生报告中的错误，取得良好的效果，对放射学诊断准确性的提升具有潜力。

Dec, 2023