通过文本在 ViTs 中分解和解释图像表示 超越 CLIP
我们通过分析个别模型组件对最终表示的影响,研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和,并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头,我们确定了每个头的角色,通过自动寻找涵盖其输出空间的文本表示,揭示了许多头的特定角色(如位置或形状)。接下来,通过解释图像块,我们揭示了 CLIP 中的空间定位。最后,我们利用这一理解,从 CLIP 中去除虚假特征,并创建了一个强大的零样本图像分割器。我们的结果表明,可扩展的理解 transformer 模型是可行的,并可用于修复和改进模型。
Oct, 2023
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议,其中引入了一种新的视觉模型 ViTamin,该模型在零样本任务和模型规模扩展等方面表现出色。
Apr, 2024
增强视觉模型对包含大量文本信息的图像进行理解和学习的能力,通过数据预处理、微调和模型评估等方法,在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度,旨在提升复杂视觉文本数据的跨模态人工智能理解能力。
May, 2024
通过使用简单的线性探测器,本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征,结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响,实证结果表明相比文本嵌入,依赖于 CLIP 的视觉表示更为实用,可克服内置偏见。
May, 2024
将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程,本文提出了一种创新的集成方法,利用对比式语言图像预训练模型的能力。
Jan, 2024
通过对比语言 - 图像预训练方法的不同背骨架结构的性能差异,发现正则化这些表示会导致显著的性能变化,进而提出了一种简单但有效的方法来结合多个背骨架的预测,并实现了显著的性能提升。
Dec, 2023
本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化,从而获得解耦的图像和模态表示的方法,并证明其在图像合成和零样本分类方面的有效性。
May, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022