利用连续提示进行医学影像 - 文本 - 标签联合对比学习
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架 ——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP 在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了 20K 的预训练数据就超过了使用约 200K 数据的现有最佳方法。
Oct, 2022
该研究提出了一种新型的学习范式 - 统一对比学习(UniCL),通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合,学习出在零样本,线性探测,完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中,UniCL 的性能均优于语言图像对比学习和监督学习方法,并且在纯图像标签数据上,其表现也不亚于监督学习方法。
Apr, 2022
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展,解决医疗领域中缺乏数据的问题,并通过扩展图像 - 标签对为图像 - 文本对,利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失,ICL 和 TCL,来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外,扩大数据集能够提高我们预训练模型的分类性能,尽管在检索性能方面有所牺牲。代码可在此网址获得。
Oct, 2023
本文介绍了一种基于 PMC-OA 生物医学数据集的 CLIP-style 预训练模型,该模型在多项下游任务中取得了最先进的结果,包括 ROCO 的图像文本检索、MedMNIST 的图像分类和医学 VQA。
Mar, 2023
将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程,本文提出了一种创新的集成方法,利用对比式语言图像预训练模型的能力。
Jan, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023