PURE: 通过识别相关电路将多义性神经元转化为纯特征
本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式,提出了新的解释神经网络的方法,并在卷积图像分类器和语言模型上进行了实验,揭示了有关神经网络行为的具体预测
Nov, 2022
研究为了实现模型机制性可解释性,提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征,该方法可以根据用户所需的概念级别寻找精细的概念,分析显示多义神经元可以分解成神经元的线性组合的方向,评估表明找到的概念向量编码了连贯的人类可理解的特征。
Apr, 2023
本文通过应用神经科学和信息论中的工具,提出了一种新的实用方法和理论观点,用于解释神经网络的可解释性和多语义性,研究网络代码的冗余水平,并展示了随机投影如何揭示网络代码的可解释性。同时,文中还解释了多语义神经元对学习性能的优势,并对最近 Elhage 等人的研究结果提出了解释,并推进了神经网络可解释性的探索,为其底层结构提供了洞见,提供了新的电路级可解释性途径。
Jan, 2024
通过特征容量的视角,我们探讨单个神经元是否会包含无关的特征,这种现象被称为多语性,我们在玩具模型中证明最优特征容量分配倾向于在嵌入空间中(按照它们对损失的影响比例)多意地表示次重要特征,单意地表示最重要特征,而完全忽略最不重要的特征。当输入具有更高的峭度或稀疏性时,多语性更为普遍,而且在某些体系结构中更为普遍。此外,我们发现嵌入空间具有块半正交结构,不同的模型具有不同的块大小,突出了模型体系结构对其神经元的可解释性的影响。
Oct, 2022
多义性神经元是优化任务的深度网络中的一个重要障碍,会对人工智能安全性产生影响。本研究提出了多义性的第二种可能产生方式,名为 “偶发性多义性”,并通过理论和实验证明了这种现象的存在。
Dec, 2023
本文提供了一个玩具模型,完全理解了多义性的出现,我们通过存储额外的稀疏特征在 “叠加” 的方式下实现了多义性。我们展示了一个相位变化的存在,一个令人惊讶的与均匀多面体几何的联系,以及与对抗性示例的联系的证据。我们还讨论了对机械解释的潜在影响。
Sep, 2022
在神经网络中,单个神经元往往是 “可解释的”,因为它们代表了个别直观有意义的特征。然而,许多神经元表现出混合选择性,即它们代表多个不相关的特征。最近的假设提出深度网络中的特征可能通过多个神经元以非正交的方式进行 “叠加”,因为自然数据中可解释的特征数量通常大于给定网络中的神经元数量。因此,我们应该能够在激活空间中找到与个别神经元不一致的有意义方向。在这里,我们提出了(1)一种自动化方法,用于量化视觉可解释性,并与人类心理物理学对神经元可解释性的大型数据库验证,以及(2)一种在网络激活空间中找到有意义方向的方法。我们利用这些方法在卷积神经网络中发现了比个别神经元更具直观意义的方向,通过一系列分析进行了确认和调查。此外,我们将相同的方法应用于大脑中两个最近的视觉神经响应数据集,并发现我们的结论在大部分转移到真实神经数据上,这表明大脑可能使用了叠加。这也与去纠缠有关,并在人工和生物神经系统中提出了关于稳健、高效和分解表示的基本问题。
Oct, 2023
我们引入了一种发现和应用稀疏特征电路的方法,这些电路是人可解释特征的因果相关子网络,用于解释语言模型的行为。与以前的工作中的电路相反,稀疏特征电路基于细粒度单元,可以提供对预期之外的机制的详细理解,并且在下游任务中非常有用。我们介绍了 SHIFT,通过消除人类判断为任务无关的特征,改善了分类器的泛化能力。最后,我们展示了一个完全无监督和可扩展的可解释性流程,用于自动发现模型行为中的成千上万的稀疏特征电路。
Mar, 2024