定量化和启用CLIP类模型的可解释性
本文提出了一种名为ECLIP的改进版Contrastive Language-Image Pre-training模型,通过Masked Max Pooling方法解决了原模型存在的semantic shift问题,在目标检测和可解释性等方面有着较大的提升。
Sep, 2022
CLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。
Apr, 2023
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
我们通过分析个别模型组件对最终表示的影响,研究了CLIP图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和,并使用CLIP的文本表示来解释各个部分。通过解释注意力头,我们确定了每个头的角色,通过自动寻找涵盖其输出空间的文本表示,揭示了许多头的特定角色(如位置或形状)。接下来,通过解释图像块,我们揭示了CLIP中的空间定位。最后,我们利用这一理解,从CLIP中去除虚假特征,并创建了一个强大的零样本图像分割器。我们的结果表明,可扩展的理解transformer模型是可行的,并可用于修复和改进模型。
Oct, 2023
通过实验证明,CLIP的潜在空间高度结构化,因此CLIP表示可以分解为其潜在的语义组成部分,并提出Sparse Linear Concept Embeddings(SpLiCE)的新方法,将CLIP表示转化为人类可解释概念的稀疏线性组合。通过实验验证,SpLiCE输出的表示可以解释甚至取代传统的密集CLIP表示,保持等同的下游性能同时显著提高解释性,并展示了SpLiCE表示的几个用例,包括检测虚假相关性、模型编辑和量化数据集中的语义转换。
Feb, 2024
我们的研究旨在揭示CLIP模型在图像理解方面存在的问题和盲点,通过对比CLIP与人类图像理解的共性与差异,我们发现CLIP在图像解释上存在与人类感知相比的显著差异,包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉,以及对地理环境的错误归因等14个系统性问题。通过解决这些限制,我们为开发更准确细致的图像嵌入模型奠定了基础,推动了人工智能的发展。
Jun, 2024
CLIP模型的研究目标是解决Compositional Out of Distribution(C-OoD) generalization问题,并通过研究图像和文本表示的解耦以及其对模型鲁棒性的影响,提供改进CLIP模型在分布外场景的泛化能力的机会。
Jul, 2024
通过研究CLIP的[CLS]标记对补丁特征相关性的影响,我们提出了一种称为CLIPtrase的训练免费的语义分割策略,通过重新校准补丁之间的自相关性来提高局部特征的认知能力。该方法在分割准确性和对象间语义一致性的保持方面表现出显著的改进,超过了现有的最先进的无需训练的方法。
Jul, 2024
通过重新研究CLIP的架构,我们发现残差连接是降低分割质量的主要噪声源。因此,我们提出了ClearCLIP,这是一种新颖的方法,通过对CLIP的表示进行分解来增强开放词汇的语义分割。ClearCLIP消除了残差连接,实施了自我关注,并且舍弃了前馈网络。在多个基准测试中,ClearCLIP始终生成更清晰、更准确的分割地图,并且在性能上优于现有方法。
Jul, 2024