Oct, 2023

异常值加权逐层稀疏化(OWL):向高稀疏化去除 LLMs 的遗漏秘密配方

TL;DR大语言模型(LLMs)的巨大模型规模在实际部署中引发挑战,因此针对此问题,我们对传统网络修剪技术应用于 LLMs,大量参数可以被剪枝,而不会损害性能。基于从预训练 LLMs 模型中获得的经验,我们的实验结果表明,非均匀层间稀疏性相比于均匀层间稀疏性通常具有更好的效果。为了阐明这种差异的潜在原因,我们开展了对 LLMs 内部特征分布的全面分析。在这个基础上,我们提出了一种新的 LLMs 修剪方法,包含一套特定设计为 LLMs 修剪的非均匀层间稀疏率,称为离群值加权层间稀疏(OWL)。OWL 的稀疏率与每个层中观察到的离群值比例成正比,使得层间权重稀疏性与离群值比例之间能够更加有效地对齐。我们的实证评估结果显示,OWL 相比于先前方法具有显著的优势,例如,在 70% 的高稀疏度下,我们的方法在困惑度上超过了最新的 Wanda 和 SparseGPT 方法,分别提升了 61.22 和 6.80。