WoLF:大规模语言模型框架用于 CXR 理解
利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像,并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调,该模型在胸部 X 射线图像解释中显示了很好的潜力。
Oct, 2023
本研究利用 VQ-GAN 框架将图像的潜在表示作为一种文本令牌,通过对预训练 LLM 进行微调,实现了无需结构改变或额外训练目标的图像生成,并将其应用于胸部 X-ray 图像和报告生成任务中。
May, 2023
我们提出了一种放射学特定的多模态模型,用于从胸部 X 线片 (CXR) 生成放射学报告。我们的工作基于这样一个观点,即大型语言模型可以通过与预训练的视觉编码器对齐来具备多模态能力。在自然图像上,这已被证明可以使多模态模型具有图像理解和描述能力。我们提出的模型 (MAIRA-1) 结合了一个特定于 CXR 的图像编码器和一个基于 Vicuna-7B 的精调大型语言模型,以及基于文本的数据增强方法,以产生具有最先进质量的报告。具体而言,MAIRA-1 在与放射科医生对齐的 RadCliQ 指标和所有考虑的词汇指标上均有显著提高。对模型输出进行手动审核显示出生成报告的流畅性和准确性,同时揭示了现有评估方法未捕捉到的故障模式。更多信息和资源可在项目网站中找到:this https URL。
Nov, 2023
MedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型,包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性,并在 MIMIC 数据集上的性能超越了基准模型。此外,该研究还介绍了一种创新的文本到 CXR 合成方法,利用了 Stable Diffusion(SD)架构内的指令跟随能力,无需额外参数,使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。
Dec, 2023
本研究提出了一种策略来克服大规模自然 - 医学分布偏移,并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线(CXR)及其对应的放射学(文本)报告语料库上进行调整,评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力,并观察到使用数据增强的方式训练动态成像分类器的证据。
Nov, 2022
我们介绍了 OmniMedVQA,一个来自 75 个不同医疗数据集的医疗视觉问答基准,其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
通过整合医生的眼动数据以及文本提示,利用视觉 - 语言模型(VLMs)来增强胸部 X 射线分析中的人机交互,从而提高计算机辅助诊断在医学图像任务中的准确性。
Apr, 2024