生物医学视觉语言处理的大规模领域特定预训练
本文介绍了一种基于 PMC-OA 生物医学数据集的 CLIP-style 预训练模型,该模型在多项下游任务中取得了最先进的结果,包括 ROCO 的图像文本检索、MedMNIST 的图像分类和医学 VQA。
Mar, 2023
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的 PubMedCLIP 模型,与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。
Dec, 2021
本文提出了 MedBLIP,这是一个轻量级的 CAD 系统,利用预训练的图像编码器和语言模型,结合维度转换,对医学图像扫描和电子医疗记录中的文本描述进行预训练,最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。
May, 2023
本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展,解决医疗领域中缺乏数据的问题,并通过扩展图像 - 标签对为图像 - 文本对,利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失,ICL 和 TCL,来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外,扩大数据集能够提高我们预训练模型的分类性能,尽管在检索性能方面有所牺牲。代码可在此网址获得。
Oct, 2023
该研究论文提出了基于医学图像文本匹配的预训练方法,利用三元组信息和医学专有知识进行医疗分类和定位,取得了比其他方法更好的分类结果。
Jan, 2023
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
医学图像语言预训练(Med-VLP)通过视觉内容与相关的文本描述之间建立连接。本文将 Med-VLP 的范围扩展到包括 3D 图像,特别针对全身场景,并利用包含 CT 图像和报告的多模态数据集。我们介绍了 CT-GLIP(CT 扫描的基于图像 - 语言的预训练)的一种新方法,通过构建器官级的图像 - 文本对来增强多模态对比学习,将基于图像的视觉特征与精确的诊断文本对齐。我们的方法在一个包含 17,702 名患者的多模态 CT 数据集上进行训练,涵盖了 104 个器官的 44,011 个视觉 - 文本对,证明了它能够使用自然语言以零 - shot 方式识别器官和异常。CT-GLIP 的性能在一个独立测试集上进行验证,该测试集包括 1,130 名患者,重点关注 7 个器官中最常见的 16 种异常。实验结果表明,在使用 CNN 和 ViT 架构的零 - shot 和微调场景下,我们的模型在标准 CLIP 框架之上表现出卓越的性能。
Apr, 2024
通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions),本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析,得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。
Jun, 2023