Mammo-CLIP:利用对比式语言 - 图像预训练(CLIP)对多视角乳腺摄影增强乳腺癌诊断
本文提出了针对乳腺癌检测中计算机辅助诊断(CAD)的大型和多样化训练数据的不足问题,通过使用大规模图像文本数据集进行预训练,通过视觉 - 语言模型(如 CLIP)部分解决了计算机视觉中鲁棒性和数据效率的问题。我们首次提出了 Mammo-CLIP,使用大量乳腺癌筛查乳房矩阵报告对其进行了预训练,解决了数据集多样性和规模的挑战。我们在两个公共数据集上的实验证明了该方法在乳腺癌检测中对关键的分类和定位属性表现出了类似 CLIP 在计算机视觉中的数据效率和鲁棒性。此外,我们还提出了 Mammo-FActOR,一种新颖的特征归因方法,可以提供在乳腺病理学报告中基于句子级粒度的空间解释。代码可在公开网址 https://github.com/batmanlab/Mammo-CLIP 上获得。
May, 2024
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
人工智能与放射学的整合标志着医学诊断的一个转型时代,采用视觉基础模型改进放射学图像分析,引入 RadCLIP 用于优化放射学图像分析,包括创新的三维切片池化机制和多样的放射学图像 - 文本数据集,评估结果显示 RadCLIP 可以有效对齐放射学图像与对应的文本标注,并提供强大的视觉支持。
Mar, 2024
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。
Jun, 2024
使用多模态的医学影像,利用视觉语言模型 (CLIP) 自动生成整体身体的标准化分区和器官列表,相较于基线模型 (PubMedCLIP),提高性能达到 47.6%。
May, 2024
eCLIP 是 CLIP 模型的增强版本,通过整合放射科医师眼动热图的专家注释,解决对比性多模式医学图像分析中的关键挑战,特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强,提高模型的学习效果。通过多个任务的详细评估,包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成(RAG)放射学报告,eCLIP 展示了嵌入质量的持续改进,揭示了增强的对齐性和一致性,证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。
Mar, 2024
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的 PubMedCLIP 模型,与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。
Dec, 2021
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
Jun, 2024
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022