PURE: 通过识别相关电路将多义性神经元转化为纯特征

Apr, 2024

PURE: 通过识别相关电路将多义性神经元转化为纯特征

PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits

Maximilian Dreyer, Erblina Purelku, Johanna Vielhaben, Wojciech Samek, Sebastian Lapuschkin

TL;DR我们提出了一种方法，通过将多义性神经元分解为多个单义性的 “虚拟” 神经元，从而解开深度神经网络中的多义性，实现了深度神经网络的解释性。

Abstract

The field of mechanistic interpretability aims to study the role of individual neurons in deep neural networks. Single →

mechanistic interpretability neurons polysemanticity disentangling deep neural networks

发现论文，激发创造

通过多面体透镜解释神经网络

本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式，提出了新的解释神经网络的方法，并在卷积图像分类器和语言模型上进行了实验，揭示了有关神经网络行为的具体预测

Nov, 2022

用概念向量解开神经元表示

研究为了实现模型机制性可解释性，提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征，该方法可以根据用户所需的概念级别寻找精细的概念，分析显示多义神经元可以分解成神经元的线性组合的方向，评估表明找到的概念向量编码了连贯的人类可理解的特征。

Apr, 2023

通过编码理论理解神经网络中的多义性

本文通过应用神经科学和信息论中的工具，提出了一种新的实用方法和理论观点，用于解释神经网络的可解释性和多语义性，研究网络代码的冗余水平，并展示了随机投影如何揭示网络代码的可解释性。同时，文中还解释了多语义神经元对学习性能的优势，并对最近 Elhage 等人的研究结果提出了解释，并推进了神经网络可解释性的探索，为其底层结构提供了洞见，提供了新的电路级可解释性途径。

Jan, 2024

神经网络中的多释义性和容量

通过特征容量的视角，我们探讨单个神经元是否会包含无关的特征，这种现象被称为多语性，我们在玩具模型中证明最优特征容量分配倾向于在嵌入空间中（按照它们对损失的影响比例）多意地表示次重要特征，单意地表示最重要特征，而完全忽略最不重要的特征。当输入具有更高的峭度或稀疏性时，多语性更为普遍，而且在某些体系结构中更为普遍。此外，我们发现嵌入空间具有块半正交结构，不同的模型具有不同的块大小，突出了模型体系结构对其神经元的可解释性的影响。

Oct, 2022

附带的多义性

多义性神经元是优化任务的深度网络中的一个重要障碍，会对人工智能安全性产生影响。本研究提出了多义性的第二种可能产生方式，名为 “偶发性多义性”，并通过理论和实验证明了这种现象的存在。

Dec, 2023

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

超叠加的玩具模型

本文提供了一个玩具模型，完全理解了多义性的出现，我们通过存储额外的稀疏特征在 “叠加” 的方式下实现了多义性。我们展示了一个相位变化的存在，一个令人惊讶的与均匀多面体几何的联系，以及与对抗性示例的联系的证据。我们还讨论了对机械解释的潜在影响。

Sep, 2022

玩具模型中的单一语义工程

本文尝试利用训练过程中的局部最小值改变神经元内在特征，以提高神经网络的可解释性并减少偏差，并发现每层神经元数量的增加可以提高单语性，但会增加计算成本。

Nov, 2022

在人工和生物神经系统中识别可解释的视觉特征

在神经网络中，单个神经元往往是 “可解释的”，因为它们代表了个别直观有意义的特征。然而，许多神经元表现出混合选择性，即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行 “叠加”，因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此，我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里，我们提出了（1）一种自动化方法，用于量化视觉可解释性，并与人类心理物理学对神经元可解释性的大型数据库验证，以及（2）一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向，通过一系列分析进行了确认和调查。此外，我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集，并发现我们的结论在大部分转移到真实神经数据上，这表明大脑可能使用了叠加。这也与去纠缠有关，并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。

Oct, 2023

稀疏特征电路：在语言模型中发现和编辑可解释性因果图

我们引入了一种发现和应用稀疏特征电路的方法，这些电路是人可解释特征的因果相关子网络，用于解释语言模型的行为。与以前的工作中的电路相反，稀疏特征电路基于细粒度单元，可以提供对预期之外的机制的详细理解，并且在下游任务中非常有用。我们介绍了 SHIFT，通过消除人类判断为任务无关的特征，改善了分类器的泛化能力。最后，我们展示了一个完全无监督和可扩展的可解释性流程，用于自动发现模型行为中的成千上万的稀疏特征电路。

Mar, 2024