研究大型语言模型中层的重要性

Sep, 2024

Investigating Layer Importance in Large Language Models

Yang Zhang, Yanfei Dong, Kenji Kawaguchi

TL;DR本研究针对大型语言模型（LLMs）在理解和处理文本中的不透明性问题，通过研究模型中各层的重要性来填补这一空白。我们提出了一种高效的抽样方法，利用Shapley值评估层的重要性，并通过剖析实验显示，某些早期层被称为“基石层”，其移除会导致模型性能显著下降。这一发现为未来的LLM研究提供了重要的基础。

Abstract

Large Language Models (LLMs) have gained increasing attention due to their prominent ability to understand and process texts. Nevertheless, LLMs largely remain opaque. The lack of understanding of LLMs has obstructed the deployment in safety-critical scenarios and hindered the developm

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

深度和宽度对Transformer语言模型泛化的影响

通过对transformers进行实验，我们发现深度模型相比较较浅模型能更好地进行组成性泛化，并得出更深的模型在语言建模性能上表现更好的结论。

Oct, 2023

為什麼举得那麼重？通过削减层数减轻大型语言模型

通过减少层数，可以缩小大型语言模型的规模，而仍能保持或提升其在文本分类任务中的性能水平。

Feb, 2024

语言特定神经元: 大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的Transformer架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

推理过程中不需要所有LLM层

利用适应性输入实例的简单算法AdaInfer，在Large Language Models的推理阶段中使用浅层次进行简单实例的推理和深层次进行困难实例的推理，可在节省计算资源的同时保持性能。

Mar, 2024

ShortGPT: 大型语言模型中的层次关系比您预期的更冗余

大型语言模型的层之间存在高相似性，某些层对网络功能没有显著作用，因此提出了一种基于层重要性评分的剪枝方法，并且该方法在模型剪枝方面明显优于先前的最新方法，同时与量化等方法相互独立，能进一步减小参数和计算量。

Mar, 2024

优化大型语言模型的压缩方法

基于层序之差异，我们提出了 LLM-Streamline 方法，该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练，以减轻剪枝所引起的性能下降，并在综合实验中展示了其优于现有模型剪枝方法的效果。

Mar, 2024

理解FFNs在LLMs中推动多语言行为的角色

多语言模型（LLMs）中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。

Apr, 2024

探索语言模型参数的激活模式

基于梯度的度量方法探索了大型语言模型内部的参数激活程度，发现参数在浅层被密集激活，而在深层被稀疏激活；当输入跨越不同领域时，浅层参数的激活行为更相似；在深层，参数的激活分布与实际数据相关性呈正相关；进一步验证了这些发现，并期望能在实际应用中产生更多启发。

May, 2024

LLM的卓越稳健性：推理阶段？

通过删除和交换相邻层，我们展示并研究了大型语言模型的显著健壮性，并发现删除和交换方法可以在不进行微调的情况下保留原始模型预测准确性的72-95％，而具有更多层的模型表现出更强的健壮性。基于逐层干预和进一步实验的结果，我们假设了跨8个不同模型的四个普遍推理阶段的存在，即去标记化，特征工程，预测集成和残余调整。第一个阶段将局部信息融合，将原始令牌表示提升为更高级别的上下文表示。接下来是任务和实体特定特征的迭代改进。然后，模型的后半部分开始时进行相位转变，由于专用模型组件，隐藏表示与词汇空间更加一致。最后，最后一层通过消除向预测添加噪音的过时特征来调整后续令牌分布。

Jun, 2024