Mammo-CLIP：利用对比式语言 - 图像预训练（CLIP）对多视角乳腺摄影增强乳腺癌诊断

Apr, 2024

Mammo-CLIP：利用对比式语言 - 图像预训练（CLIP）对多视角乳腺摄影增强乳腺癌诊断

Mammo-CLIP: Leveraging Contrastive Language-Image Pre-training (CLIP) for Enhanced Breast Cancer Diagnosis with Multi-view Mammography

PDF

Xuxin Chen, Yuheng Li, Mingzhe Hu, Ella Salari, Xiaoqian Chen...

TL;DR通过多视图乳房 X 光片和简单文本的多模态框架 Mammo-CLIP，本研究展示了应用微调视觉语言模型来开发下一代基于图像文本的乳腺癌 CAD 方案的潜力。

Abstract

Although fusion of information from multiple views of mammograms plays an important role to increase accuracy of breast cancer detection, developing multi-view mammograms-based →

multi-view mammograms computer-aided diagnosis contrastive language-image pre-training mammo-clip breast cancer detection

发现论文，激发创造

Mammo-CLIP: 一种增强乳腺摄影数据效率与鲁棒性的视觉语言基础模型

本文提出了针对乳腺癌检测中计算机辅助诊断（CAD）的大型和多样化训练数据的不足问题，通过使用大规模图像文本数据集进行预训练，通过视觉 - 语言模型（如 CLIP）部分解决了计算机视觉中鲁棒性和数据效率的问题。我们首次提出了 Mammo-CLIP，使用大量乳腺癌筛查乳房矩阵报告对其进行了预训练，解决了数据集多样性和规模的挑战。我们在两个公共数据集上的实验证明了该方法在乳腺癌检测中对关键的分类和定位属性表现出了类似 CLIP 在计算机视觉中的数据效率和鲁棒性。此外，我们还提出了 Mammo-FActOR，一种新颖的特征归因方法，可以提供在乳腺病理学报告中基于句子级粒度的空间解释。代码可在公开网址 https://github.com/batmanlab/Mammo-CLIP 上获得。

May, 2024

医学影像中的 CLIP 技术综述

通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索，本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。

Dec, 2023

RadCLIP：通过对比语言 - 图像预训练增强放射学图像分析

人工智能与放射学的整合标志着医学诊断的一个转型时代，采用视觉基础模型改进放射学图像分析，引入 RadCLIP 用于优化放射学图像分析，包括创新的三维切片池化机制和多样的放射学图像 - 文本数据集，评估结果显示 RadCLIP 可以有效对齐放射学图像与对应的文本标注，并提供强大的视觉支持。

Mar, 2024

MedCLIP: 对未配对的医学影像和文本进行对比学习

本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP，该框架采用了对抗学习和多模式学习，并引入医学知识语义匹配。实验结果表明，MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是，仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。

Oct, 2022

CLIP 的多模态多标签分类

设计一个学习算法来处理图像和文本两个数据源，通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示，最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。

Jun, 2024

CLIP 中的语言增强技术对多模态医学图像的改进解剖检测

使用多模态的医学影像，利用视觉语言模型 (CLIP) 自动生成整体身体的标准化分区和器官列表，相较于基线模型 (PubMedCLIP)，提高性能达到 47.6%。

May, 2024

优化医学多模态对比学习：专家批注

eCLIP 是 CLIP 模型的增强版本，通过整合放射科医师眼动热图的专家注释，解决对比性多模式医学图像分析中的关键挑战，特别是数据稀缺和 “模态差异”。它通过整合热图处理器和利用稀缺的专家注释的 mixup 数据增强，提高模型的学习效果。通过多个任务的详细评估，包括零样本推理、线性探测、跨模态检索和使用冻结的大型语言模型进行检索增强生成（RAG）放射学报告，eCLIP 展示了嵌入质量的持续改进，揭示了增强的对齐性和一致性，证实了 eCLIP 在医学图像领域利用高质量注释进行丰富的多模态分析能力。

Mar, 2024

CLIP 在医学领域是否像在通用领域一样有益于视觉问答？

本研究探究了 CLIP 在医学领域中应用的效果，并试图通过针对性的 PubMedCLIP 模型，与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较，证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。

Dec, 2021

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022