使用半结构自适应稀疏训练修剪大型语言模型
通过结合权重剪枝和模型蒸馏技术,我们提出了一种新的方法,用于训练稀疏的预训练变压器语言模型,这些模型可以快速高效地用于各种自然语言处理任务,并保持其稀疏性,同时我们进一步使用量化感知训练来将这些稀疏模型压缩为8位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识,是目前压缩-to-准确度比率最好的压缩BERT-Base、BERT-Large和DistilBERT方法。
Nov, 2021
提出一种名为LLM-Pruner的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要50K数据,在3小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
通过合作的剪枝算法和大型语言模型自身,在数据收集和训练成本昂贵的挑战下,Compresso通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法,成功将LLaMA-7B剪枝至5.4B,并在阅读理解上超过LLaMA-7B2.62%,在共同推理、阅读理解、MMLU和BBH基准测试上分别获得了2.21%、11.43%、7.04%和4.81%的更高分数,明显优于一次性剪枝基线。
Oct, 2023
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为SquareHead的基于L2范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在CPU和GPU执行中的速度提升。
Oct, 2023
基于Dynamic Sparse No Training (DSnoT)的训练无关的微调方法,能够有效地提高稀疏语言模型的性能,并开拓了将稀疏性应用于大型语言模型的潜力。
Oct, 2023
大型语言模型(Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调(sparse fine-tuning)的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像LLaMA 2 7B和13B这样的最先进的LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如LoRA表现更好,并且在运行时间上可比较。
Jan, 2024
我们介绍了一种名为Q-Sparse的简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs),可以在推理过程中带来显著的效率提升。
Jul, 2024
本研究解决了现有大型语言模型剪枝方法需要低效再训练或性能下降的问题。本文提出的FISTAPruner是首个基于凸优化的后训练剪枝器,采用$\ell_1$范数诱导稀疏性,并利用FISTA求解器进行优化。实验表明FISTAPruner在多种语言基准上相较于现有最先进方法表现更优。
Aug, 2024
本研究针对大型语言模型(LLMs)高内存消耗和慢推理速度的问题,提出了一种名为SLiM的新型压缩方法。SLiM通过结合对称量化和基于显著性的低秩近似,采用一次性处理方式消除了繁琐的重训练过程,显著提高了模型精度,展示了在内存受限环境中高效部署大型模型的潜力。
Oct, 2024
本研究针对大型语言模型(LLMs)在实际应用中因参数规模庞大而面临的结构剪枝性能恢复难题,提出了一种低成本、高效的分层结构剪枝方法SlimGPT。该方法通过批量贪婪剪枝和增量剪枝比率,实现了快速近似最优的剪枝效果,实验结果表明,SlimGPT在LLaMA基准测试中表现优于其他方法,达到了当前最先进的水平。
Dec, 2024