CLIP 的泛化性能主要源自高的训练 - 测试相似性吗?
在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal,评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现,CLIPs 在不同背景下的性能存在显著下降,而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题,同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。
Mar, 2024
利用大规模网络数据集进行训练会消耗可观的计算资源,本文研究通过修剪大规模多模态数据集来提高训练效率,并通过筛选高质量数据集以降低训练成本,从而在 ImageNet 数据集上取得了更好的性能。
Jan, 2024
通过研究图像与语言模型 (CLIP) 在不同类型的分布转换下的通用性,重点关注图像与语言模型在新颖的属性 - 对象配对组合中的分类能力。研究表明,使用大规模的训练数据和语言监督可以显著提高视觉 - 语言模型的组合泛化能力。
Mar, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
研究发现 CLIP 预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究,揭示了 CLIP 预训练的伪任务形成了一个动态分类问题,在训练中只包含部分类别,从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外,CLIP 的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高,而这些在监督学习中是无法实现的。该研究不仅揭示了 CLIP 在数据不平衡情况下的泛化机制,还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现,使得在不平衡数据上训练的模型能够在多样化的识别任务上达到 CLIP 级别的性能。
May, 2024
该文章从预训练功能提取器、视觉超出分布(OOD)检测、语言图像预训练模型、对抗性操纵的 OOD 图像和视觉异常检测等方面进行了全面实验研究,证明了使用最近邻特征相似度作为 OOD 检测得分的对比语言 - 图像预训练模型实现了最先进的无监督 OOD 性能,同时可以在无内部分布微调的情况下获得有监督的最先进 OOD 检测性能,并指出需要基于实验研究建立新的视觉异常检测基准。
Mar, 2023
该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。
Feb, 2024
对比语言 - 图像预训练(CLIP)已经因其非凡的零 - shot 能力而受到广泛关注。本研究聚焦于开发高效的微调方法来提升 CLIP 在下游任务中的性能,其中包括提示学习和适配器。然而,这些方法仍然需要额外的训练时间和计算资源,对于资源有限的设备来说并不理想。因此,我们重新审视了经典算法高斯判别分析(GDA),应用它于 CLIP 的下游分类中。通过利用贝叶斯公式,高斯判别分析假设每个类别的特征都服从具有相同协方差的高斯分布。我们将 GDA 与 CLIP 中的原始零 - shot 分类器进行集成,以融合视觉和文本模态的知识。对 17 个数据集进行广泛的实验证明,我们的方法在少样本分类、不平衡学习和超出分布泛化等方面超过或达到了与最先进方法相当的结果。此外,我们还将我们的方法扩展到基于新类别的推理和无监督学习,再次展示了其优越性。我们的代码在 https://github.com/mrflogs/ICLR24 上公开可用。
Feb, 2024
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024
大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。我们通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点,原因是 CLIP 对图像内容、图像质量和文本内容的敏感性不足。通过对三个常见的预训练数据集进行文本分析,我们发现残疾内容很少被提及。我们还提供了三个示例,说明性能差异扩展到由 CLIP 支持的三个下游模型:OWL-ViT, CLIPSeg 和 DALL-E2。我们发现使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异,我们还讨论了一系列可能的缓解措施。
Nov, 2023