玩具模型中的单一语义工程

Nov, 2022

Engineering Monosemanticity in Toy Models

Adam S. Jermyn, Nicholas Schiefer, Evan Hubinger

TL;DR本文尝试利用训练过程中的局部最小值改变神经元内在特征，以提高神经网络的可解释性并减少偏差，并发现每层神经元数量的增加可以提高单语性，但会增加计算成本。

Abstract

In some neural networks, individual neurons correspond to natural ``features'' in the input. Such \emph{monosemantic} neurons are of great help in interpretability studies, as they can be cleanly understood. In t

neural networks monosemantic neurons interpretability training process computational cost

发现论文，激发创造

激发还是抑制单一语义性？从特征去相关角度重新思考单一语义性

大语言模型中的单语义性神经元对模型容量有积极影响，鼓励特征去相关化可以增强表示多样性和激活稀疏性，并提高偏好对齐性能。

Jun, 2024

超叠加的玩具模型

本文提供了一个玩具模型，完全理解了多义性的出现，我们通过存储额外的稀疏特征在 “叠加” 的方式下实现了多义性。我们展示了一个相位变化的存在，一个令人惊讶的与均匀多面体几何的联系，以及与对抗性示例的联系的证据。我们还讨论了对机械解释的潜在影响。

Sep, 2022

神经网络中的多释义性和容量

通过特征容量的视角，我们探讨单个神经元是否会包含无关的特征，这种现象被称为多语性，我们在玩具模型中证明最优特征容量分配倾向于在嵌入空间中（按照它们对损失的影响比例）多意地表示次重要特征，单意地表示最重要特征，而完全忽略最不重要的特征。当输入具有更高的峭度或稀疏性时，多语性更为普遍，而且在某些体系结构中更为普遍。此外，我们发现嵌入空间具有块半正交结构，不同的模型具有不同的块大小，突出了模型体系结构对其神经元的可解释性的影响。

Oct, 2022

PURE: 通过识别相关电路将多义性神经元转化为纯特征

我们提出了一种方法，通过将多义性神经元分解为多个单义性的 “虚拟” 神经元，从而解开深度神经网络中的多义性，实现了深度神经网络的解释性。

Apr, 2024

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

通过多面体透镜解释神经网络

本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式，提出了新的解释神经网络的方法，并在卷积图像分类器和语言模型上进行了实验，揭示了有关神经网络行为的具体预测

Nov, 2022

通过编码理论理解神经网络中的多义性

本文通过应用神经科学和信息论中的工具，提出了一种新的实用方法和理论观点，用于解释神经网络的可解释性和多语义性，研究网络代码的冗余水平，并展示了随机投影如何揭示网络代码的可解释性。同时，文中还解释了多语义神经元对学习性能的优势，并对最近 Elhage 等人的研究结果提出了解释，并推进了神经网络可解释性的探索，为其底层结构提供了洞见，提供了新的电路级可解释性途径。

Jan, 2024

崛起学习：由新兴能力和单义性基础的研究

通过研究不同规模的模型，我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少，提出了一种主动抑制单语义性的两阶段方法，并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模，但对于研究部门来说，将该研究扩展至非常大规模的数据集是吸引人的，但受到资源限制而不可能实现，期待 AI 公司的合作。

Dec, 2023

附带的多义性

多义性神经元是优化任务的深度网络中的一个重要障碍，会对人工智能安全性产生影响。本研究提出了多义性的第二种可能产生方式，名为 “偶发性多义性”，并通过理论和实验证明了这种现象的存在。

Dec, 2023

用概念向量解开神经元表示

研究为了实现模型机制性可解释性，提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征，该方法可以根据用户所需的概念级别寻找精细的概念，分析显示多义神经元可以分解成神经元的线性组合的方向，评估表明找到的概念向量编码了连贯的人类可理解的特征。

Apr, 2023