使用半结构自适应稀疏训练修剪大型语言模型

Jul, 2024

使用半结构自适应稀疏训练修剪大型语言模型

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

Weiyu Huang, Guohao Jian, Yuezhou Hu, Jun Zhu, Jianfei Chen

TL;DR本研究解决了大型语言模型（LLMs）在部署时面临的参数数量和内存消耗问题，通过提出了一种称为自适应稀疏训练（AST）的新训练流程，克服了传统无训练剪枝方法的性能下降。AST通过知识蒸馏和自适应选择更优的剪枝策略，显著缩小了稠密模型与稀疏模型之间的性能差距，结合量化方法时可实现高达16倍的模型压缩，同时保持较小的性能损失。

Abstract

Transformer-based Large Language Models (LLMs) have demonstrated remarkable success across various challenging tasks. However, the deployment of LLMs is hindered by their substantial parameter count and memory consumption. Recently, numerous studies have attempted to compress LLMs by p

发现论文，激发创造

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为8位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩-to-准确度比率最好的压缩BERT-Base、BERT-Large和DistilBERT方法。

Nov, 2021

大规模语言模型的结构剪枝——LLM-Pruner

提出一种名为LLM-Pruner的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要50K数据，在3小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将LLaMA-7B剪枝至5.4B，并在阅读理解上超过LLaMA-7B2.62%，在共同推理、阅读理解、MMLU和BBH基准测试上分别获得了2.21%、11.43%、7.04%和4.81%的更高分数，明显优于一次性剪枝基线。

Oct, 2023

大语言模型推理加速的稀疏微调

我们研究了大型语言模型的精确稀疏微调问题，通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为SquareHead的基于L2范数的蒸馏方法，能够在高稀疏率下实现准确恢复，并展示了稀疏语言模型在CPU和GPU执行中的速度提升。

Oct, 2023

无需训练的动态稀疏化：针对稀疏长模型的零训练微调

基于Dynamic Sparse No Training (DSnoT)的训练无关的微调方法，能够有效地提高稀疏语言模型的性能，并开拓了将稀疏性应用于大型语言模型的潜力。

Oct, 2023

大规模语言模型的稀疏微调扩展

大型语言模型(Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调(sparse fine-tuning)的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像LLaMA 2 7B和13B这样的最先进的LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如LoRA表现更好，并且在运行时间上可比较。

Jan, 2024

Q-Sparse: 所有大型语言模型可以完全稀疏激活

我们介绍了一种名为Q-Sparse的简单而有效的方法，用于训练稀疏激活的大型语言模型（LLMs），可以在推理过程中带来显著的效率提升。

Jul, 2024

基于凸优化的分层后训练剪枝方法用于大型语言模型

本研究解决了现有大型语言模型剪枝方法需要低效再训练或性能下降的问题。本文提出的FISTAPruner是首个基于凸优化的后训练剪枝器，采用$\ell_1$范数诱导稀疏性，并利用FISTA求解器进行优化。实验表明FISTAPruner在多种语言基准上相较于现有最先进方法表现更优。

Aug, 2024

SLiM：一次性量化稀疏加低秩近似的大型语言模型

本研究针对大型语言模型（LLMs）高内存消耗和慢推理速度的问题，提出了一种名为SLiM的新型压缩方法。SLiM通过结合对称量化和基于显著性的低秩近似，采用一次性处理方式消除了繁琐的重训练过程，显著提高了模型精度，展示了在内存受限环境中高效部署大型模型的潜力。

Oct, 2024

SlimGPT：大型语言模型的分层结构剪枝

本研究针对大型语言模型（LLMs）在实际应用中因参数规模庞大而面临的结构剪枝性能恢复难题，提出了一种低成本、高效的分层结构剪枝方法SlimGPT。该方法通过批量贪婪剪枝和增量剪枝比率，实现了快速近似最优的剪枝效果，实验结果表明，SlimGPT在LLaMA基准测试中表现优于其他方法，达到了当前最先进的水平。

Dec, 2024