大规模语言模型的高效剪枝与自适应推理融合

Mar, 2024

大规模语言模型的高效剪枝与自适应推理融合

Efficient Pruning of Large Language Model with Adaptive Estimation Fusion

Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Haoye Dong...

TL;DR用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了1.1％，1.02％，2.0％和1.2％。

Abstract

large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices.

发现论文，激发创造

大规模语言模型的结构剪枝——LLM-Pruner

提出一种名为LLM-Pruner的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要50K数据，在3小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大型语言模型的简单有效剪枝方法

本文介绍了一种名为Wanda的裁剪方法，旨在在无需微调或权重更新的情况下诱导预训练LLMs的稀疏性，并在LLaMA上进行全面评估，实验证明Wanda在各种语言基准测试中显著优于基线剪枝方案，并与涉及大量权重更新的最近方法竞争优势。

Jun, 2023

剪枝加速的LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示Sheared-LLaMA系列，在仅使用相当于从头训练这些模型所需计算量的3％的情况下，将LLaMA2-7B模型修剪为1.3B和2.7B参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

基于波动的自适应结构修剪大型语言模型

通过提出一种新颖的名为FLAP（基于波动的自适应结构修剪）的网络学习模型无需再训练就能进行结构修剪的框架，可以有效减少存储和提高推理速度，大大优于现有的基于结构修剪的方法，同时通过制定结构重要性度量，自适应搜索全局压缩模型，并实施补偿机制来缓解性能损失。

Dec, 2023

修剪大型语言模型的快速和最优权重更新

本文提出了一种基于交替方向乘法器的快速最优权重更新算法来修剪大型语言模型，配合简单的迭代修剪掩码选择，在广泛范围的大型语言模型中实现了最先进的剪枝性能。

Jan, 2024

LLaMA简化：大型语言模型的简单深度修剪

通过深度剪枝方法，我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争，并且在内存受限情况下的推理速度提升尤为明显，希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。

Feb, 2024

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

BlockPruner：大型语言模型的细粒度剪枝

我们提出了一种名为BlockPruner的新型无需训练的结构化修剪方法，通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪，实验证明，与现有方法相比，BlockPruner在各种下游任务中实现了更精确和有效的修剪。

Jun, 2024

重新思考大型语言模型剪枝: 重构误差最小化的好处和陷阱

通过分割模型、顺序修剪、重构稠密对应模型的预测，及时合并稀疏子模型，本文首次提出了一系列重建技术，可以显著降低高复原误差，并发现最小化复原误差并非总是理想的，引入自动生成校准数据的策略以平衡复原和泛化之间的权衡，为剪枝大型语言模型的新方向提供了新思路。

Jun, 2024

DISP-LLM：无维度结构剪枝的大型语言模型

该研究针对大型语言模型在资源有限设备上部署所面临的高内存和计算成本问题，提出了一种新的无维度结构剪枝方法。此方法通过消除嵌入维度的结构依赖，提升了模型的灵活性，并在多种大型语言模型上的实验结果表明，其性能优于现有的最先进技术，验证了结构剪枝可以达到与半结构剪枝相似的准确率。

Oct, 2024