探索语言模型参数的激活模式

May, 2024

Exploring Activation Patterns of Parameters in Language Models

Yudong Wang, Damai Dai, Zhifang Sui

TL;DR基于梯度的度量方法探索了大型语言模型内部的参数激活程度，发现参数在浅层被密集激活，而在深层被稀疏激活；当输入跨越不同领域时，浅层参数的激活行为更相似；在深层，参数的激活分布与实际数据相关性呈正相关；进一步验证了这些发现，并期望能在实际应用中产生更多启发。

Abstract

Most work treats large language models as black boxes without in-depth understanding of their internal working mechanism. In order to explain the internal representations of LLMs, we propose a →

large language models internal representations gradient-based metric activation behavior parameter activation patterns

发现论文，激发创造

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为 LLMs 的多语言处理机制提供了启示，对指导 LLMs 的多语言训练和模型修剪具有重要意义。

Feb, 2024

ShortGPT: 大型语言模型中的层次关系比您预期的更冗余

大型语言模型的层之间存在高相似性，某些层对网络功能没有显著作用，因此提出了一种基于层重要性评分的剪枝方法，并且该方法在模型剪枝方面明显优于先前的最新方法，同时与量化等方法相互独立，能进一步减小参数和计算量。

Mar, 2024

大规模语言模型中的大规模激活

研究发现大型语言模型中存在大量激活，它们相对于其他激活值明显较大（如大约 10 万倍）；这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用，导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项；此外，还研究了在视觉转换器中产生的大激活。

Feb, 2024

小型语言模型中实现稀疏激活

我们在小型语言模型（SLMs）中实现了稀疏激活，并通过新的归因测量指标以达到精确的稀疏激活，实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率，可与大型语言模型（LLMs）中实现的稀疏激活相媲美。

Jun, 2024

学会高效：在大型语言模型中构建结构化稀疏性

使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升，通过激活较少神经元来获得更好的稀疏性和性能平衡，取得了较好的结果。

Feb, 2024

深度和宽度对 Transformer 语言模型泛化的影响

通过对 transformers 进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Oct, 2023

LLaMA 模型中的动态激活陷阱：实证研究

我们对 LLaMA 系列语言模型中动态激活机制的功效进行了系统的调查，发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明，与 ReLU 激活函数的对应模型相比，LLaMA 模型在要求高稀疏比率的场景中通常表现较差。我们将这些缺陷归因于以下几个因素：1）动态预测激活头和神经元的内在复杂性；2）激活函数引起的不充分稀疏性；3）KV 缓存跳过引起的信息不充分保留。我们的分析不仅揭示了大规模 LLaMA 模型中动态激活的局限性，还提出了增强未来稀疏方案设计的路线图。

May, 2024

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

量化语言模型中的特征稀疏性

最近的研究工作提出了一种假设，即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下，这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功，并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平，并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模，这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。

Oct, 2023

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024