大规模语言模型的结构剪枝——LLM-Pruner

May, 2023

大规模语言模型的结构剪枝——LLM-Pruner

LLM-Pruner: On the Structural Pruning of Large Language Models

Xinyin Ma, Gongfan Fang, Xinchao Wang

TL;DR提出一种名为LLM-Pruner的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要50K数据，在3小时内就能通过调整技术（LoRA）有效地恢复性能。

Abstract

large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in both the deployment, inference, and training stages. Wit

发现论文，激发创造

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

压缩LLMs：真实很少纯粹而简单

尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题，但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为LLM-KICK的压缩语言模型评估协议，通过其揭示了当前最先进的压缩方法的优点和缺点，并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。

Oct, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将LLaMA-7B剪枝至5.4B，并在阅读理解上超过LLaMA-7B2.62%，在共同推理、阅读理解、MMLU和BBH基准测试上分别获得了2.21%、11.43%、7.04%和4.81%的更高分数，明显优于一次性剪枝基线。

Oct, 2023

剪枝加速的LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示Sheared-LLaMA系列，在仅使用相当于从头训练这些模型所需计算量的3％的情况下，将LLaMA2-7B模型修剪为1.3B和2.7B参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

超越大小：梯度如何塑造大型语言模型的剪枝决策

预训练的大型语言模型的梯度为基础的模型修剪器（GBLM-Pruner）通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手，并在各种语言评估中超过了幅度修剪、Wanda和SparseGPT。

Nov, 2023

LLM外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

LLaMA简化：大型语言模型的简单深度修剪

通过深度剪枝方法，我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争，并且在内存受限情况下的推理速度提升尤为明显，希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。

Feb, 2024

优化大型语言模型的压缩方法

基于层序之差异，我们提出了 LLM-Streamline 方法，该方法通过对模型中不重要的层进行剪枝和轻量级模型的替代训练，以减轻剪枝所引起的性能下降，并在综合实验中展示了其优于现有模型剪枝方法的效果。

Mar, 2024

领域特定的LLM提取器剪枝

通过识别关键权重，提出了一种创新的针对特定领域的压缩方法D-Pruner，通过提取关键权重，实现Compressed, domain-specific和task-agnostic的LLM，具有广泛适用性和特定性。

May, 2024

DISP-LLM：无维度结构剪枝的大型语言模型

该研究针对大型语言模型在资源有限设备上部署所面临的高内存和计算成本问题，提出了一种新的无维度结构剪枝方法。此方法通过消除嵌入维度的结构依赖，提升了模型的灵活性，并在多种大型语言模型上的实验结果表明，其性能优于现有的最先进技术，验证了结构剪枝可以达到与半结构剪枝相似的准确率。

Oct, 2024