大型语言模型的结构裁剪

Oct, 2019

Structured Pruning of Large Language Models

Ziheng Wang, Jeremy Wohlwend, Tao Lei

TL;DR该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Abstract

large language models have recently achieved state of the art performance across a wide variety of natural language tasks. Meanwhile, the size of these models and their latency have significantly increased, which makes their usage costly, and raises an interesting question: do language

large language models model compression structured pruning low-rank factorization bert model

发现论文，激发创造

LLM 外科医生

通过数据驱动的预训练模型压缩方法，我们可以在不牺牲性能的情况下，对大型语言模型进行剪枝，减小模型的规模。

Dec, 2023

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

语言模型压缩的低秩剪枝和分解

利用网络剪枝与矩阵分解相结合的方式，提出了一种有效的预训练语言模型的模型压缩方法，通过新的初始化技术和训练过程优化技巧，能够在保持性能的同时实现更加高效的模型压缩。

Jun, 2023

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023