NutePrune: 高效、逐步精简大型语言模型的多个教师

Feb, 2024

NutePrune: 高效、逐步精简大型语言模型的多个教师

NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models

Shengrui Li, Xueting Han, Jing Bai

TL;DR大规模语言模型在资源受限的硬件上部署具有挑战性，本研究提出了一种高效的结构剪枝算法 NutePrune，通过逐步引导剪枝模型的方法，在保持整体性能的同时，减小了内存开销和提高了推理速度。

Abstract

The considerable size of large language models (LLMs) presents notable deployment challenges, particularly on resource-constrained hardware. structured pruning, offers an effective means to compress LLMs, thereby

large language models structured pruning knowledge distillation nuteprune resource-efficient

发现论文，激发创造

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Dec, 2022

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

每个人都剪枝：只使用前向传播的 LLM 结构剪枝

利用仅使用前向传递的方法进行结构裁剪，我们开发了 Bonsai，一种无梯度、扰动性的裁剪方法，能够生成小型、快速、准确的模型，超越梯度裁剪方法和半结构裁剪方法的性能且节约资源。

Feb, 2024

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019