ICMLJul, 2023

在图像表征中识别可解释子空间

TL;DR我们提出了一种利用对比概念的自动特征解释(FALCON)的可解释性框架来解释图像表示的特征,通过使用大规模字幕数据集(如 LAION-400m)和预训练的视觉 - 语言模型(如 CLIP),FALCON 对高度活化的裁剪图像进行字幕,并得出一些共享的、人可理解的概念,从而解释目标特征。FALCON 还使用低激活的(反事实的)图像进行对比解释,以消除虚假概念。我们展示了当在组中研究时,比如在最先进的无监督和有监督模型中观察到,少于 20% 的表示空间可以通过单独的特征解释。我们通过 FALCON 展示了在更大的空间中研究的特征更具解释性,并且可以通过高阶计分概念来解释。我们讨论了如何使用提取的概念来解释和调试下游任务中的失败。最后,我们提出了一种通过学习简单的线性变换,将概念从一个(可解释的)表示空间转移到另一个未见的表示空间的技术。