构想 MedCLIP:医学视觉语言模型的可解释性深入探究
在本研究中,我们通过给对象识别任务中的大视觉语言模型(VLMs)提供可解释性的数理定义(基于类别和原因的联合概率分布),以一种可解释的方式对 CLIP 进行微调,从而在解释性分类方面展现了最先进的性能,尤其在零样本设置下表现出了它的适应性,使解释性的对象识别得到了改善,增强了不同应用中的信任。
Apr, 2024
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
公平性对于深度学习至关重要,尤其是在医疗领域,因为这些模型会影响诊断和治疗决策。本研究介绍了第一个公平的医学视觉语言数据集 FairVLMed,通过提供详细的人口属性、真实标签和临床笔记来深入研究视觉语言基础模型内的公平性。使用 FairVLMed,我们对两个广泛使用的视觉语言模型(CLIP 和 BLIP2)进行了全面的公平性分析,这两个模型分别在自然和医学领域进行了预训练,并跨越了四个不同的受保护属性。研究结果显示,所有视觉语言模型都存在显著偏见,其中亚洲人、男性、非西班牙裔和西班牙语为种族、性别、民族和语言方面的首选子群体。为了减轻这些偏见,我们提出了一种基于最优输运的方法 FairCLIP,通过减小整体样本分布和相应人口群体分布之间的 Sinkhorn 距离,在性能和公平性之间实现了有利的权衡。作为首个类似数据集,FairVLMed 有潜力促进开发既具有道德意识又具有临床有效性的机器学习模型的进步。
Mar, 2024
我们提出了 CLIP-ICM(Invariant Causal Mechanism of CLIP)算法,该算法旨在通过干预数据来可靠地识别不变的潜在因素,并在各个领域中实现准确的预测。理论分析表明,我们的方法在分布外(OOD)场景中具有较低的泛化下界,实验结果展示了 CLIP-ICM 的卓越性能。
May, 2024
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的 PubMedCLIP 模型,与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。
Dec, 2021
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
本文提出了针对乳腺癌检测中计算机辅助诊断(CAD)的大型和多样化训练数据的不足问题,通过使用大规模图像文本数据集进行预训练,通过视觉 - 语言模型(如 CLIP)部分解决了计算机视觉中鲁棒性和数据效率的问题。我们首次提出了 Mammo-CLIP,使用大量乳腺癌筛查乳房矩阵报告对其进行了预训练,解决了数据集多样性和规模的挑战。我们在两个公共数据集上的实验证明了该方法在乳腺癌检测中对关键的分类和定位属性表现出了类似 CLIP 在计算机视觉中的数据效率和鲁棒性。此外,我们还提出了 Mammo-FActOR,一种新颖的特征归因方法,可以提供在乳腺病理学报告中基于句子级粒度的空间解释。代码可在公开网址 https://github.com/batmanlab/Mammo-CLIP 上获得。
May, 2024
利用强大的视觉 - 语言模型(VLM)来完成各种下游任务已引起越来越多的关注。我们提出了一种新颖的可解释提示学习框架,通过在多个粒度上对医学知识、可以学习的提示和临床概念驱动的提示的语义进行对齐,来解决这个问题,并为提示提供了视觉和文本解释。通过对各种数据集进行广泛的实验证明,我们的方法同时实现了优越的诊断性能、灵活性和可解释性,为基础模型在促进可解释的人工智能方面的有效性提供了新的视角。
Mar, 2024
利用视觉 - 语言模型识别视觉分类任务中的基于语言的描述器,通过在图像和文本之间的预训练联合嵌入空间进行线性组合,得出每个单词与基于视觉的分类器的关联度权重,从而使非专家人员能够以非平凡水平完成专业医学任务。
Nov, 2023
大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。我们通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点,原因是 CLIP 对图像内容、图像质量和文本内容的敏感性不足。通过对三个常见的预训练数据集进行文本分析,我们发现残疾内容很少被提及。我们还提供了三个示例,说明性能差异扩展到由 CLIP 支持的三个下游模型:OWL-ViT, CLIPSeg 和 DALL-E2。我们发现使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异,我们还讨论了一系列可能的缓解措施。
Nov, 2023