探索语言模型参数的激活模式
通过将大型语言模型(LLMs)转换为专家混合(MoE)架构,分析其在处理各种语言时的专家激活模式,探索并发现非语言特定神经元和语言特定激活神经元的存在,并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性,这些发现为 LLMs 的多语言处理机制提供了启示,对指导 LLMs 的多语言训练和模型修剪具有重要意义。
Feb, 2024
大型语言模型的层之间存在高相似性,某些层对网络功能没有显著作用,因此提出了一种基于层重要性评分的剪枝方法,并且该方法在模型剪枝方面明显优于先前的最新方法,同时与量化等方法相互独立,能进一步减小参数和计算量。
Mar, 2024
研究发现大型语言模型中存在大量激活,它们相对于其他激活值明显较大(如大约 10 万倍);这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用,导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项;此外,还研究了在视觉转换器中产生的大激活。
Feb, 2024
我们在小型语言模型(SLMs)中实现了稀疏激活,并通过新的归因测量指标以达到精确的稀疏激活,实验证明我们的方法可以在只损失 < 5% 的模型准确性的情况下实现 80% 的稀疏化比率,可与大型语言模型(LLMs)中实现的稀疏激活相媲美。
Jun, 2024
使用 Learn-To-be-Efficient 算法能够实现大型语言模型的效率提升,通过激活较少神经元来获得更好的稀疏性和性能平衡,取得了较好的结果。
Feb, 2024
通过对 transformers 进行实验,我们发现深度模型相比较较浅模型能更好地进行组成性泛化,并得出更深的模型在语言建模性能上表现更好的结论。
Oct, 2023
我们对 LLaMA 系列语言模型中动态激活机制的功效进行了系统的调查,发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明,与 ReLU 激活函数的对应模型相比,LLaMA 模型在要求高稀疏比率的场景中通常表现较差。我们将这些缺陷归因于以下几个因素:1)动态预测激活头和神经元的内在复杂性;2)激活函数引起的不充分稀疏性;3)KV 缓存跳过引起的信息不充分保留。我们的分析不仅揭示了大规模 LLaMA 模型中动态激活的局限性,还提出了增强未来稀疏方案设计的路线图。
May, 2024
最近的研究工作提出了一种假设,即语言模型中的激活可以被建模为对应于输入文本特征的向量的稀疏线性组合。在这个假设下,这些工作旨在使用稀疏编码重构特征方向。我们开发了度量方法来评估这些稀疏编码技术的成功,并测试线性和稀疏假设的有效性。我们展示了我们的度量方法可以预测合成稀疏线性激活的稀疏水平,并可以区分稀疏线性数据和其他几种分布。我们使用我们的度量方法来测量几个语言模型中的稀疏水平。我们发现有证据表明语言模型的激活可以准确地被特征的稀疏线性组合所建模,这种情况比控制数据集要显著得多。我们还展示了模型的激活在第一层和最后一层似乎是最稀疏的。
Oct, 2023
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
Feb, 2024