通过基于文本的分解解释 CLIP 的图像表示

Oct, 2023

通过基于文本的分解解释 CLIP 的图像表示

Interpreting CLIP's Image Representation via Text-Based Decomposition

Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt

TL;DR我们通过分析个别模型组件对最终表示的影响，研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和，并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头，我们确定了每个头的角色，通过自动寻找涵盖其输出空间的文本表示，揭示了许多头的特定角色（如位置或形状）。接下来，通过解释图像块，我们揭示了 CLIP 中的空间定位。最后，我们利用这一理解，从 CLIP 中去除虚假特征，并创建了一个强大的零样本图像分割器。我们的结果表明，可扩展的理解 transformer 模型是可行的，并可用于修复和改进模型。

Abstract

We investigate the clip image encoder by analyzing how individual model components affect the final representation. We decompose the image representation as a sum across individual image patches, model layers, an

clip image encoder model components attention heads transformer models

发现论文，激发创造

通过文本在 ViTs 中分解和解释图像表示超越 CLIP

我们提出了一个通用框架，能够识别不同模型部件在视觉转换器（ViTs）中的作用，并通过文本解释。应用于多种 ViT 变种，获得不同组件在特定图像特征方面的作用，以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。

Jun, 2024

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 解码器：使用多模态 CLIP 对齐表示进行零样本多标签分类

多标签分类的零样本学习方法，通过引入 CLIP-Decoder 的多模态表示学习，在零样本多标签分类任务中表现出前沿结果，相较于现有方法在性能上提升了 3.9％，在广义零样本多标签分类任务中提升了近 2.3％。

Jun, 2024

在 CLIP 中区分视觉和文本概念

本篇论文探讨了 CLIP 网络上单词图片和自然图片表征的纠缠度，发现其图像编码器可以将单词图片与描述相符的自然图片匹配，但同时处理字母的过程是与含义处理分离的，使用者还提出了一种有效的侧重隔离或排除拼写能力的表征子空间的方法，并对其在检索任务和生成图片方面进行了验证。

Jun, 2022

从像素到图像与语言理解的 CLIPPO 模型

本研究提出了使用纯基于像素的单一编码器进行图像、文本和多模态任务的方法 ——CLIP-Pixels Only，其使用了对比损失进行训练，并且可以表现出强大的多语种多模态检索能力及惊人的视觉问答准确性。

Dec, 2022

揭秘故障现象：对 CLIP 图像编码错误进行深入研究

我们的研究旨在揭示 CLIP 模型在图像理解方面存在的问题和盲点，通过对比 CLIP 与人类图像理解的共性与差异，我们发现 CLIP 在图像解释上存在与人类感知相比的显著差异，包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉，以及对地理环境的错误归因等 14 个系统性问题。通过解决这些限制，我们为开发更准确细致的图像嵌入模型奠定了基础，推动了人工智能的发展。

Jun, 2024

理解 CLIP 对图像压缩的脆弱性

通过分析 CLIP 模型的脆弱性，我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质，并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估，从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。

Nov, 2023