解读表征解缠之作用：研究CLIP模型中的组合泛化

Jul, 2024

解读表征解缠之作用：研究CLIP模型中的组合泛化

Deciphering the Role of Representation Disentanglement: Investigating Compositional Generalization in CLIP Models

Reza Abbasi, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah

TL;DRCLIP模型的研究目标是解决Compositional Out of Distribution(C-OoD) generalization问题，并通过研究图像和文本表示的解耦以及其对模型鲁棒性的影响，提供改进CLIP模型在分布外场景的泛化能力的机会。

Abstract

clip models have recently shown to exhibit Out of Distribution (OoD) generalization capabilities. However, Compositional Out of Distribution (C-OoD) generalization, which is a crucial aspect of a model's ability to understand unseen compositions of known concepts, is relatively unexplo

发现论文，激发创造

CLIP是否绑定概念？探索大型图像模型的组合能力

本文探讨了CLIP在合成知识下图像描述的能力，提出了五种计算模型并设计出新的训练算法CoSI，在属性-对象标记任务和空间关系任务中测试了CLIP的表现，结果表明虽然CLIP在属性-对象标记任务中表现良好且能够推广至新的未知属性-对象组合，但其无法可靠地绑定特性，对于对象之间的关系无法可靠地学习。

Dec, 2022

消除CLIP数据的神秘

以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP，在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果，MetaCLIP在零样本ImageNet分类中达到70.8%的准确率，并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。

Sep, 2023

CLIP的泛化性能主要源自高的训练-测试相似性吗？

通过对LAION数据集进行剪枝，证明CLIP模型的超出分布性能不仅依赖于训练数据的相似性，还受其他数据特性的影响。

Oct, 2023

CLIP是否总是比ImageNet模型具有更好的泛化能力？

在这篇研究中，通过构建一个包含真实背景上的动物照片的真实世界数据集CounterAnimal，评估了大规模视觉语言模型CLIPs在应对背景引起的干扰时的性能。实验发现，CLIPs在不同背景下的性能存在显著下降，而ImageNet上单模态模型的稳健性更高。研究结果提示CLIPs在分布转换下仍面临问题，同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。

Mar, 2024

语言在CLIP对象-属性组合泛化中起着关键作用

通过研究图像与语言模型(CLIP)在不同类型的分布转换下的通用性，重点关注图像与语言模型在新颖的属性-对象配对组合中的分类能力。研究表明，使用大规模的训练数据和语言监督可以显著提高视觉-语言模型的组合泛化能力。

Mar, 2024

缩放 (下降) CLIP: 数据、架构和训练策略的全面分析

研究通过受限的计算预算缩小规模的对比性语言-图像预训练（CLIP）的性能，分析数据、架构和训练策略三个维度，证明高质量训练数据的重要性，指出较小的数据集在一定计算限制下优于较大数据集，并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略，并表明在可用计算资源上选择训练策略的不同，最后发现只使用一半的训练数据，CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解，使其在各种应用中更加可行和经济实惠。

Apr, 2024

超越数据不平衡的泛化：对CLIP进行可控研究以获取可转移的洞见

研究发现CLIP预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究，揭示了CLIP预训练的伪任务形成了一个动态分类问题，在训练中只包含部分类别，从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外，CLIP的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高，而这些在监督学习中是无法实现的。该研究不仅揭示了CLIP在数据不平衡情况下的泛化机制，还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现，使得在不平衡数据上训练的模型能够在多样化的识别任务上达到CLIP级别的性能。

May, 2024

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

揭秘故障现象：对CLIP图像编码错误进行深入研究

我们的研究旨在揭示CLIP模型在图像理解方面存在的问题和盲点，通过对比CLIP与人类图像理解的共性与差异，我们发现CLIP在图像解释上存在与人类感知相比的显著差异，包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉，以及对地理环境的错误归因等14个系统性问题。通过解决这些限制，我们为开发更准确细致的图像嵌入模型奠定了基础，推动了人工智能的发展。

Jun, 2024

定量化和启用CLIP类模型的可解释性

本研究解决了CLIP模型内部工作机制不明的问题，通过量化CLIP类模型的可解释性，对六种不同的CLIP模型进行分析。研究发现，较大的CLIP模型通常比小型模型更易于解释，提出了CLIP-InterpreT工具以帮助用户理解CLIP模型的内部结构，提供多种可解释性分析功能。

Sep, 2024