Dec, 2023

MedXChat: 将胸部 X 光成像模态与统一的多模态大型模型相结合

TL;DRMedXChat 是一个用于医学助理和用户之间无缝互动的统一多模态大型模型,包括 CXR 到报告生成、基于 CXR 的视觉问答和文本到 CXR 合成三个关键功能。该模型在医学多模态应用中显示出优异的跨任务适应性,并在 MIMIC 数据集上的性能超越了基准模型。此外,该研究还介绍了一种创新的文本到 CXR 合成方法,利用了 Stable Diffusion(SD)架构内的指令跟随能力,无需额外参数,使模型能够生成高保真度的精细化医学图像。详尽的实验证实了 MedXChat 在所有任务上的协同增强效果。研究中的指令数据和模型将开源。