May, 2024

大型语言模型中 GLU 变种的依赖感知半结构稀疏性

TL;DR针对大型语言模型的硬件挑战,我们提出了一种新颖的依赖感知半结构稀疏性(DaSS)方法,它将结构依赖性引入基于权重大小的非结构化剪枝,并引入了一个 MLP 特定的剪枝度量来评估每个权重的重要性,同时考虑其大小和对应的 MLP 中间激活规范。我们在 Mistral 和 LLaMA2 模型上的实证评估表明,DaSS 不仅在实现硬件友好的 N:M 稀疏模式方面优于 SparseGPT 和 Wanda,而且还保持了 Wanda 的计算效率。