通过准确度预测器修剪大型语言模型

Sep, 2023

通过准确度预测器修剪大型语言模型

Pruning Large Language Models via Accuracy Predictor

Yupeng Ji, Yibo Cao, Jiucai Liu

TL;DR基于新的剪枝方法与准确度预测模型，本研究提出一种能够自动选择最佳模型的压缩方法，实验证明其有效性和高效性。相较于基准模型，Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%，而平均 MMLU 准确度提高了 6.28%。

Abstract

large language models(LLMs) containing tens of billions of parameters (or even more) have demonstrated impressive capabilities in various NLP tasks. However, substantial model size poses challenges to training, inference, and deployment so that it is necessary to compress the model. At

large language models model compression pruning approach accuracy predictor experimental results

发现论文，激发创造

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

LaCo：大型语言模型通过层坍缩进行修剪

提出了一种被称为 extit {Layer Collapse (LaCo)} 的简洁的逐层修剪方法，将后置模型层折叠到先前层，实现了模型大小的快速减小而同时保留了模型结构；全面的实验表明，该方法在修剪比例为 25-30% 时保持了超过 80% 的平均任务性能，显著优于现有最先进的结构修剪方法；还进行了后训练实验证实所提出的修剪方法有效继承了原始模型的参数，并从逐层相似性的角度讨论了提出该方法的动机，评估了修剪的大型语言模型在各种修剪比例下的性能。

Feb, 2024

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

ZipLM：面向硬件感知的语言模型结构化剪枝

该研究提出了一种新的大规模语言模型结构压缩方法 ZipLM，通过迭代的结构缩小模型的权重矩阵，实现在保证一组可行的目标加速比的同时提供最先进的压缩精度结果，并且能够在单次运行中在后训练 / 一次性和渐进压缩设置下生成一组准确的模型，其基于新的结构剪枝和知识蒸馏技术，结果表明 ZipLM 优于先前的结构压缩方法，尤其在 GPT2 模型上表现最佳。

Feb, 2023