解读表征解缠之作用:研究CLIP模型中的组合泛化
本文探讨了CLIP在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法CoSI,在属性-对象标记任务和空间关系任务中测试了CLIP的表现,结果表明虽然CLIP在属性-对象标记任务中表现良好且能够推广至新的未知属性-对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
在这篇研究中,通过构建一个包含真实背景上的动物照片的真实世界数据集CounterAnimal,评估了大规模视觉语言模型CLIPs在应对背景引起的干扰时的性能。实验发现,CLIPs在不同背景下的性能存在显著下降,而ImageNet上单模态模型的稳健性更高。研究结果提示CLIPs在分布转换下仍面临问题,同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。
Mar, 2024
通过研究图像与语言模型(CLIP)在不同类型的分布转换下的通用性,重点关注图像与语言模型在新颖的属性-对象配对组合中的分类能力。研究表明,使用大规模的训练数据和语言监督可以显著提高视觉-语言模型的组合泛化能力。
Mar, 2024
研究通过受限的计算预算缩小规模的对比性语言-图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
研究发现CLIP预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究,揭示了CLIP预训练的伪任务形成了一个动态分类问题,在训练中只包含部分类别,从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外,CLIP的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高,而这些在监督学习中是无法实现的。该研究不仅揭示了CLIP在数据不平衡情况下的泛化机制,还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现,使得在不平衡数据上训练的模型能够在多样化的识别任务上达到CLIP级别的性能。
May, 2024
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
我们的研究旨在揭示CLIP模型在图像理解方面存在的问题和盲点,通过对比CLIP与人类图像理解的共性与差异,我们发现CLIP在图像解释上存在与人类感知相比的显著差异,包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉,以及对地理环境的错误归因等14个系统性问题。通过解决这些限制,我们为开发更准确细致的图像嵌入模型奠定了基础,推动了人工智能的发展。
Jun, 2024
本研究解决了CLIP模型内部工作机制不明的问题,通过量化CLIP类模型的可解释性,对六种不同的CLIP模型进行分析。研究发现,较大的CLIP模型通常比小型模型更易于解释,提出了CLIP-InterpreT工具以帮助用户理解CLIP模型的内部结构,提供多种可解释性分析功能。
Sep, 2024