Jun, 2024

解读CLIP神经元的二阶影响

TL;DR我们通过使用文本自动描述单个神经元在CLIP中的功能,通过对神经元直接效应(即从神经元通过剩余流到输出的流动)或间接效应(总体贡献)的分析无法捕捉到神经元在CLIP中的功能。因此,我们提出了“二阶镜头”,通过分析从神经元通过后续注意力头直接到输出的效应来分析。我们发现这些效应非常有选择性:对于每个神经元来说,该效应对不到2%的图像具有显著影响。此外,每个效应可以用CLIP的文本-图像空间中的单个方向来近似表示。我们通过将这些方向分解为稀疏的文本表示集来描述神经元。这些集合显示了多义性行为-每个神经元对应于多个常常不相关的概念(例如船和汽车)。利用这种神经元的多义性,我们通过生成与错误类别错误相关的概念的图像来大规模制造“语义”对抗性示例。此外,我们使用二阶效应进行零样本分割和图像属性发现。我们的结果表明,可扩展的神经元理解可用于模型欺骗和引入新的模型能力。