量化语言模型中的特征稀疏性

Oct, 2023

Measuring Feature Sparsity in Language Models

Mingyang Deng, Lucas Tao, Joe Benton

TL;DR最近的研究工作提出了一种假设，即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下，这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功，并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平，并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模，这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。

Abstract

Recent works have proposed that activations in language models can be modelled as sparse linear combinations of vectors corresponding to features of input text. Under this assumption, these works aimed to reconst

activations language models sparse coding sparsity feature directions

发现论文，激发创造

神经语言模型自然出现稀疏性

本研究探讨稀疏神经模型在自然语言处理中的重要性，使用出租车欧几里得范数对稀疏度进行量化，发现输入频繁的词在激活方面较为集中，而目标词汇的激活由分散变得集中，并且功能词梯度比内容词梯度更集中。

Jul, 2019

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

并非所有语言模型特征都是线性的

语言模型利用线性表示假说来执行计算，但我们研究表明某些语言模型的表示可能是固有的多维的。我们开发了一种基于不可约多维特征的严格定义，用于确定这些特征是否能够分解为独立或非共现的低维特征。通过使用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征，这些自动发现的特征包括具有显著可解释性的例子，例如表示星期和月份的圆形特征。我们确定了使用这些确切圆形特征来解决涉及星期和月份的模块算术计算问题的任务。最后，通过对 Mistral 7B 和 Llama 3 8B 进行干预实验，我们提供了这些圆形特征在这些任务中确实是计算的基本单元的证据，并通过分解这些任务的隐藏状态为可解释的组件，找到了更多的圆形表示。

May, 2024

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

稀疏激活下的神经网络学习

许多成功的神经网络结构中的核心组件是一个具有非线性激活函数的两个全连接层的 MLP 块。我们在本文中对展示出激活稀疏性的 MLP 层的 PAC 可学习性进行了形式化研究，并呈现了多种实验结果，表明这类函数相对于非稀疏的对应物具有计算和统计上的优势。我们希望对 “激活稀疏” 的网络有更好的理论认识，以便能够在实践中利用激活稀疏性。

Jun, 2024

稀疏探测中的神经元查找案例研究

本文讨论了如何理解大型语言模型内部神经元激活的高级人类可解释特征表示，并通过 $k$-sparse 线性分类器在内部神经元激活上进行分类训练以预测输入特征的存在性，研究表示的稀疏性随模型规模的变化，发现超定叠加、高级语境特定性和多种类型的规模动态等特性。

May, 2023

稀疏自编码器的扩展和评估

稀疏自编码器通过重构来自稀疏瓶颈层的激活，提供了一种从语言模型中提取可解释特征的有前途的无监督方法。我们提出使用 k - 稀疏自编码器来直接控制稀疏性，简化调整并改进重构 - 稀疏性的界限，并引入一些评估特征质量的新度量标准，这些度量标准在自编码器的规模大小上通常会有所改善。

Jun, 2024

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024