利用胸部 CT 扫描和放射学报告的基础模型进行监督级零样本异常检测
通过开源医学图像数据集、基于最新的通用分割和大型语言模型,我们介绍了 RadGenome-Chest CT,这是一个全面的、大规模的、基于 CT-RATE 的区域导向的 3D 胸部 CT 解读数据集,推动了多模态医学基础模型的发展。
Apr, 2024
本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展,解决医疗领域中缺乏数据的问题,并通过扩展图像 - 标签对为图像 - 文本对,利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失,ICL 和 TCL,来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外,扩大数据集能够提高我们预训练模型的分类性能,尽管在检索性能方面有所牺牲。代码可在此网址获得。
Oct, 2023
人工智能与放射学的整合标志着医学诊断的一个转型时代,采用视觉基础模型改进放射学图像分析,引入 RadCLIP 用于优化放射学图像分析,包括创新的三维切片池化机制和多样的放射学图像 - 文本数据集,评估结果显示 RadCLIP 可以有效对齐放射学图像与对应的文本标注,并提供强大的视觉支持。
Mar, 2024
通过引入一种基于先进 3D 视觉编码器和自回归因果变换器的新型方法,借助交叉注意力多模式融合模块和分层记忆,我们首次提出了一种用于生成三维医学影像尤其是胸部 CT 体素的放射学报告的方法,并证明了其有效性。
Mar, 2024
医学图像语言预训练(Med-VLP)通过视觉内容与相关的文本描述之间建立连接。本文将 Med-VLP 的范围扩展到包括 3D 图像,特别针对全身场景,并利用包含 CT 图像和报告的多模态数据集。我们介绍了 CT-GLIP(CT 扫描的基于图像 - 语言的预训练)的一种新方法,通过构建器官级的图像 - 文本对来增强多模态对比学习,将基于图像的视觉特征与精确的诊断文本对齐。我们的方法在一个包含 17,702 名患者的多模态 CT 数据集上进行训练,涵盖了 104 个器官的 44,011 个视觉 - 文本对,证明了它能够使用自然语言以零 - shot 方式识别器官和异常。CT-GLIP 的性能在一个独立测试集上进行验证,该测试集包括 1,130 名患者,重点关注 7 个器官中最常见的 16 种异常。实验结果表明,在使用 CNN 和 ViT 架构的零 - shot 和微调场景下,我们的模型在标准 CLIP 框架之上表现出卓越的性能。
Apr, 2024
本文提出了一种自动生成医疗记录摘要的方法,结合对前胸透视 X 光扫描的分析和来自放射学记录的结构化患者信息,使用 Show-Attend-Tell 和 GPT-3 两种语言模型生成具体和描述性的放射学记录,并在 Open-I、MIMIC-CXR 和 MS-COCO 等医疗数据集上进行测试,结果表明其能够有效地应用于胸部 X 光图像字幕生成和病理定位。
Sep, 2022
本文提出了 GenerateCT 方法,它是第一个用于文本条件下的计算机体层摄影(CT)生成的方法,并且构建了一个包含预训练大型语言模型和基于变压器的文本条件 3D 胸部 CT 生成结构的框架。同时,我们提出了 CT-ViT 来更有效地压缩 CT 数据。实验结果表明 GenerateCT 可以根据医学文本提示生成逼真、高分辨率和高保真度的 3D 胸部 CT 体积,具有很大的潜力加速医学成像研究。
May, 2023
通过结合结构化患者数据和非结构化临床记录,我们提出了一种新颖的多模态深度神经网络框架,用于生成描述医学图像结果的胸部 X 射线检查报告,并通过引入条件交叉多头注意力模块来融合这些异构数据模态,弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比,实验证明通过使用附加模态可以显著改善结果,在 ROUGE-L 指标上达到了文献相关最高的性能。此外,我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性,但也强调需要更多的改进以捕捉细微的细节和临床背景。
Nov, 2023