Oct, 2023

通过基于文本的分解解释 CLIP 的图像表示

TL;DR我们通过分析个别模型组件对最终表示的影响,研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和,并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头,我们确定了每个头的角色,通过自动寻找涵盖其输出空间的文本表示,揭示了许多头的特定角色(如位置或形状)。接下来,通过解释图像块,我们揭示了 CLIP 中的空间定位。最后,我们利用这一理解,从 CLIP 中去除虚假特征,并创建了一个强大的零样本图像分割器。我们的结果表明,可扩展的理解 transformer 模型是可行的,并可用于修复和改进模型。