通过文本在 ViTs 中分解和解释图像表示超越 CLIP

Jun, 2024

通过文本在 ViTs 中分解和解释图像表示超越 CLIP

Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP

Sriram Balasubramanian, Samyadeep Basu, Soheil Feizi

TL;DR我们提出了一个通用框架，能够识别不同模型部件在视觉转换器（ViTs）中的作用，并通过文本解释。应用于多种 ViT 变种，获得不同组件在特定图像特征方面的作用，以促进图像检索、可视化令牌重要性热图和减轻错误相关性等应用。

Abstract

Recent works have explored how individual components of the clip-vit model contribute to the final representation by leveraging the shared image-text representation space of CLIP. These →

clip-vit model components image features framework vit variants

发现论文，激发创造

通过基于文本的分解解释 CLIP 的图像表示

我们通过分析个别模型组件对最终表示的影响，研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和，并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头，我们确定了每个头的角色，通过自动寻找涵盖其输出空间的文本表示，揭示了许多头的特定角色（如位置或形状）。接下来，通过解释图像块，我们揭示了 CLIP 中的空间定位。最后，我们利用这一理解，从 CLIP 中去除虚假特征，并创建了一个强大的零样本图像分割器。我们的结果表明，可扩展的理解 transformer 模型是可行的，并可用于修复和改进模型。

Oct, 2023

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

揭示 CLIP 中的骨干效应：探索表征的协同作用与变异

通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异，发现正则化这些表示会导致显著的性能变化，进而提出了一种简单但有效的方法来结合多个背骨架的预测，并实现了显著的性能提升。

Dec, 2023

基于词性的视觉语言模型子空间

本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化，从而获得解耦的图像和模态表示的方法，并证明其在图像合成和零样本分类方面的有效性。

May, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

通过文本在 ViTs 中分解和解释图像表示 超越 CLIP

通过文本在 ViTs 中分解和解释图像表示超越 CLIP