解读CLIP神经元的二阶影响

Jun, 2024

Interpreting the Second-Order Effects of Neurons in CLIP

Yossi Gandelsman, Alexei A. Efros, Jacob Steinhardt

TL;DR我们通过使用文本自动描述单个神经元在CLIP中的功能，通过对神经元直接效应（即从神经元通过剩余流到输出的流动）或间接效应（总体贡献）的分析无法捕捉到神经元在CLIP中的功能。因此，我们提出了“二阶镜头”，通过分析从神经元通过后续注意力头直接到输出的效应来分析。我们发现这些效应非常有选择性：对于每个神经元来说，该效应对不到2％的图像具有显著影响。此外，每个效应可以用CLIP的文本-图像空间中的单个方向来近似表示。我们通过将这些方向分解为稀疏的文本表示集来描述神经元。这些集合显示了多义性行为-每个神经元对应于多个常常不相关的概念（例如船和汽车）。利用这种神经元的多义性，我们通过生成与错误类别错误相关的概念的图像来大规模制造“语义”对抗性示例。此外，我们使用二阶效应进行零样本分割和图像属性发现。我们的结果表明，可扩展的神经元理解可用于模型欺骗和引入新的模型能力。

Abstract

We interpret the function of individual neurons in clip by automatically describing them using text. Analyzing the direct effects (i.e. the flow from a neuron through the residual stream to the output) or the ind

发现论文，激发创造

通过输入重采样实现卷积神经网络的可视化解释

我们提出了一种通过检测神经网络中的信息流来分析预测的框架，该框架使用两个指标选择神经元，这些神经元既对网络输出产生巨大影响又能激活通用特征并比较不同度量筛选的神经元集合，从而提出了一种调查卷积神经网络内部注意机制的方法。

Jul, 2017

神经元的组合解释

我们使用一种解释深度学习表征中神经元的程序，通过识别与神经元行为密切相关的组合逻辑概念来实现，以比先前使用原子标签的解释方法更精确地描述他们的行为，并回答了一些有关视觉和自然语言处理模型可解释性的问题。

Jun, 2020

CLIP-Dissect: 深度视觉网络神经元表示的自动描述

本文提出了CLIP-Dissect技术，通过利用新型视觉/语言模型对隐藏神经元进行无需标记的开放式概念标记来描述其功能，从而实现对视觉网络内部神经元进行自动化描述。本方法不仅更准确地描述了最后一层具有可参照标准的神经元，而且对隐藏层神经元也提供了质量上好的描述。此外，本方法计算效率高，能在很短时间内标记多层神经元。

Apr, 2022

在CLIP中区分视觉和文本概念

本篇论文探讨了CLIP网络上单词图片和自然图片表征的纠缠度，发现其图像编码器可以将单词图片与描述相符的自然图片匹配，但同时处理字母的过程是与含义处理分离的，使用者还提出了一种有效的侧重隔离或排除拼写能力的表征子空间的方法，并对其在检索任务和生成图片方面进行了验证。

Jun, 2022

发现：通过竞争和分解使视觉网络可解释

这项研究工作旨在通过多模态视觉-文本模型和基于线性单元之间的随机局部竞争的网络层，提出了一种框架，以更容易地发现视觉任务网络中每个神经元的个体功能，并生成描述性文本以解释网络的决策过程。

Oct, 2023

NeuroInspect: 基于神经元的调试框架通过条件可视化

通过引入神经元为基础的调试框架NeuroInspect，该研究提供了深度学习模型的人类可解释的调试方法，其中包括对错误的因果解释、特征可视化和假相关性缓解，从而实现了对DL模型错误的调试和改进。

Oct, 2023

CLIP-MUSED: CLIP引导下的多主体视觉神经信息语义解码

通过使用CLIP引导的多主题视觉神经信息语义解码（CLIP-MUSED）方法，我们提出了一种可以解决单一主题解码模型泛化到多个主题的挑战，并克服了有限的单一主题数据对模型性能的约束的方法。

Feb, 2024

描述和解剖：使用语言模型解释视觉网络中的神经元

本文提出了一种描述和解析（DnD）的新方法，利用多模态深度学习的最新进展来产生复杂的自然语言描述，无需带标签的训练数据或预定义的概念选择集。通过广泛的定性和定量分析，我们展示了DnD在提供更高质量神经元描述方面的优越性，并且与最佳基线相比，我们的方法平均提供了最高质量的标签，并且更有可能被选为神经元的最佳解释。

Mar, 2024

揭秘故障现象：对CLIP图像编码错误进行深入研究

我们的研究旨在揭示CLIP模型在图像理解方面存在的问题和盲点，通过对比CLIP与人类图像理解的共性与差异，我们发现CLIP在图像解释上存在与人类感知相比的显著差异，包括行动与静止的混淆、无法识别图像中的运动方向或物体位置、产生类似水的特征的幻觉，以及对地理环境的错误归因等14个系统性问题。通过解决这些限制，我们为开发更准确细致的图像嵌入模型奠定了基础，推动了人工智能的发展。

Jun, 2024

定量化和启用CLIP类模型的可解释性

本研究解决了CLIP模型内部工作机制不明的问题，通过量化CLIP类模型的可解释性，对六种不同的CLIP模型进行分析。研究发现，较大的CLIP模型通常比小型模型更易于解释，提出了CLIP-InterpreT工具以帮助用户理解CLIP模型的内部结构，提供多种可解释性分析功能。

Sep, 2024