Oct, 2024

通过互知识解释和分析CLIP的零样本图像分类

TL;DR本研究解决了CLIP模型在图像分类中的解读与分析问题,尤其是如何理解视觉和语言两个模态之间的共同概念。通过文本概念的解释方法,我们分析了13个不同架构、规模和预训练数据集的CLIP模型,发现它们的互知识关系有效影响了零样本预测的结果。这一方法为理解CLIP的零样本分类决策提供了有效且易于人类理解的方式。