Oct, 2023

强韧多模型具有异常特征并编码更多概念

TL;DR通过研究 12 个具有不同骨干(ResNets 和 ViTs)和预训练集(OpenAI、LAION-400M、LAION-2B、YFCC15M、CC12M 和 DataComp)的鲁棒多模型的表示空间,我们发现这些模型的表示空间呈现出稳健性的两个特征:(1)稳健模型具有被激活的异常特征,其中一些特征的值远高于平均值,这些异常特征在模型的表示空间中引入了特权方向;我们证明这些特权方向解释了模型的大部分预测能力,通过裁剪最不重要的表示空间方向可减少 80% 并不对模型的准确性和稳健性产生负面影响;(2)鲁棒模型在表示空间中编码了更多的概念,虽然这种概念的叠加使得鲁棒模型能够存储更多的信息,但也导致了高度多义的特征,从而增加了其解释的难度。我们讨论了这些观察结果如何为模型剪枝和机制可解释性等领域的未来研究铺平了道路。