稀疏探测中的神经元查找案例研究

May, 2023

稀疏探测中的神经元查找案例研究

Finding Neurons in a Haystack: Case Studies with Sparse Probing

Wes Gurnee, Neel Nanda, Matthew Pauly, Katherine Harvey, Dmitrii Troitskii...

TL;DR本文讨论了如何理解大型语言模型内部神经元激活的高级人类可解释特征表示，并通过 $k$-sparse 线性分类器在内部神经元激活上进行分类训练以预测输入特征的存在性，研究表示的稀疏性随模型规模的变化，发现超定叠加、高级语境特定性和多种类型的规模动态等特性。

Abstract

Despite rapid adoption and deployment of large language models (LLMs), the internal computations of these models remain opaque and poorly understood. In this work, we seek to understand how high-level human-interpretable features are represented within the →

large language models internal neuron activations sparse linear classifiers model scale representational sparsity

发现论文，激发创造

量化语言模型中的特征稀疏性

最近的研究工作提出了一种假设，即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下，这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功，并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平，并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模，这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。

Oct, 2023

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

稀疏激活下的神经网络学习

许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究，并呈现了多种实验结果，表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识，以便能够在实践中利用激活稀疏性。

Jun, 2024

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

使用线性分类器探测中间层

通过监测神经网络模型每个层的特征并测量其对分类的适用性，使用线性分类器（即 “探针”）完全独立于模型本身进行训练，这有助于更好地理解中间层的作用和动态，并可用于诊断潜在问题。将此技术应用于 Inception v3 和 Resnet-50 等流行模型，实验证明，特征的线性可分性沿模型深度单调增加。

Oct, 2016

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

通过发现子网络进行低复杂度的探测

提出一种基于减法修剪的探测方法，相较于多层感知机探测方法，该方法在预训练模型上的准确性更高，而在随机模型上的准确性更低，且在探测复杂度上占据优势，通过对不同任务的分析，我们发现较低层次的任务被编码在较低的层数中。

Apr, 2021

基于 Spike-and-Slab 稀疏编码的大规模特征学习

使用基于 spike-and-slab sparse coding 的新特征学习和提取程序，通过适合于 GPU 的推理过程来克服大数量类的对象识别中标记样本数量的不足，并证明其在 CIFAR-10 和 CIFAR-100 数据集上能够提高监督学习性能和比以前的方法更好地扩展到大量的类别，从而成功赢得了 2011 年 NIPS 工作坊中的挑战

Jun, 2012

分析语言模型中个别神经元的陷阱

本文讨论了使用外部探针的方法评估神经元与语言相关性的方法，指出其存在的问题并提出新的评估方法。

Oct, 2021