神经语言模型自然出现稀疏性

ICMLJul, 2019

Sparsity Emerges Naturally in Neural Language Models

Naomi Saphra, Adam Lopez

TL;DR本研究探讨稀疏神经模型在自然语言处理中的重要性，使用出租车欧几里得范数对稀疏度进行量化，发现输入频繁的词在激活方面较为集中，而目标词汇的激活由分散变得集中，并且功能词梯度比内容词梯度更集中。

Abstract

Concerns about interpretability, computational resources, and principled inductive priors have motivated efforts to engineer sparse neural models for nlp tasks. If sparsity is important for →

sparse neural models nlp taxi-euclidean norm word frequency gradients

发现论文，激发创造

量化语言模型中的特征稀疏性

最近的研究工作提出了一种假设，即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下，这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功，并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平，并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模，这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。

Oct, 2023

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型

本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器，具有高度稀疏的表示，与最先进的密集和稀疏方法相比取得了有竞争力的结果，并探讨了效率和效果之间的平衡。