深入研究对比语言图像预训练(CLIP)的鲁棒性
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
通过实验研究,我们发现对比训练语言 - 图像模型的鲁棒性提高的主要因素是训练分布的多样性,而其他因素对鲁棒性几乎没有贡献。除了我们的实验结果,我们还介绍了 ImageNet-Captions,这是带有来自 Flickr 的原始文本注释的 ImageNet 版本,以进一步进行语言 - 图像训练的受控实验。
May, 2022
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率,并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。
Sep, 2023
在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal,评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现,CLIPs 在不同背景下的性能存在显著下降,而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题,同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。
Mar, 2024
该文章从预训练功能提取器、视觉超出分布(OOD)检测、语言图像预训练模型、对抗性操纵的 OOD 图像和视觉异常检测等方面进行了全面实验研究,证明了使用最近邻特征相似度作为 OOD 检测得分的对比语言 - 图像预训练模型实现了最先进的无监督 OOD 性能,同时可以在无内部分布微调的情况下获得有监督的最先进 OOD 检测性能,并指出需要基于实验研究建立新的视觉异常检测基准。
Mar, 2023
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
本文提出了 RoCLIP 方法,通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联,从而实现对 CLIP 多模态模型的强化预训练和微调,有效降低目标数据污染和后门攻击的成功率,并提高模型性能。
Mar, 2023