无梯度结构剪枝与未标记数据

Mar, 2023

Gradient-Free Structured Pruning with Unlabeled Data

Azade Nova, Hanjun Dai, Dale Schuurmans

TL;DR本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Abstract

large language models (LLMs) have achieved great success in solving difficult tasks across many domains, but such success comes with a high computation cost, and inference latency. As developers and third parties customize these models, the need to provide efficient inference has incre

large language models model compression unlabeled data pruning inference efficiency

发现论文，激发创造

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

基于波动的自适应结构修剪大型语言模型

通过提出一种新颖的名为 FLAP（基于波动的自适应结构修剪）的网络学习模型无需再训练就能进行结构修剪的框架，可以有效减少存储和提高推理速度，大大优于现有的基于结构修剪的方法，同时通过制定结构重要性度量，自适应搜索全局压缩模型，并实施补偿机制来缓解性能损失。

Dec, 2023

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

ZipLM：面向硬件感知的语言模型结构化剪枝

该研究提出了一种新的大规模语言模型结构压缩方法 ZipLM，通过迭代的结构缩小模型的权重矩阵，实现在保证一组可行的目标加速比的同时提供最先进的压缩精度结果，并且能够在单次运行中在后训练 / 一次性和渐进压缩设置下生成一组准确的模型，其基于新的结构剪枝和知识蒸馏技术，结果表明 ZipLM 优于先前的结构压缩方法，尤其在 GPT2 模型上表现最佳。

Feb, 2023

结构化剪枝学习紧凑而精确的模型

提出 CoFi（粗细粒度剪枝）方法，该方法结合了粗细粒度模块的剪枝决策，并采用分层蒸馏策略将知识从未剪枝模型转移到已剪枝模型，使模型同时拥有与蒸馏方法相当的精度和延迟优势，而无需使用无标注数据。在 GLUE 和 SQuAD 数据集上的实验表明，CoFi 方法在速度和精度方面相对于以前的剪枝和蒸馏方法具有更高的效率和效果。

Apr, 2022

每个人都剪枝：只使用前向传播的 LLM 结构剪枝

利用仅使用前向传递的方法进行结构裁剪，我们开发了 Bonsai，一种无梯度、扰动性的裁剪方法，能够生成小型、快速、准确的模型，超越梯度裁剪方法和半结构裁剪方法的性能且节约资源。

Feb, 2024