使用原则重要性和自我正则化剪枝预训练语言模型

ACLMay, 2023

使用原则重要性和自我正则化剪枝预训练语言模型

Pruning Pre-trained Language Models with Principled Importance and Self-regularization

Siyu Ren, Kenny Q. Zhu

TL;DR本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法，应用于各种基于 Transformer 的 PLMs，使得在高稀疏度时具有更好的泛化性能。

Abstract

iterative pruning is one of the most effective compression methods for pre-trained language models. We discovered that finding the optimal

iterative pruning compression language models self-regularization sparsity levels

发现论文，激发创造

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

无需微调的预训练语言模型剪枝

本研究提出基于一阶信息的 Static Model Pruning 方法，该方法不需要微调即可压缩 Pre-trained Language Models (PLMs)，并在各种稀疏水平下展现出显著的性能优势和更高的参数效率。

Oct, 2022

修剪能否提高大型语言模型的效率？

通过对 Transformer 架构进行参数剪枝的优化策略，通过广泛实验和超参数选择，研究发现可以在不牺牲性能的情况下显著减少模型大小，并改善通用性能，从而在深度学习应用方面实现更可扩展和环境友好的方式。

Oct, 2023

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023

从数据压缩角度测量数据修剪中样本重要性

数据压缩视角下的信息性剪枝方法可提高大语言模型（LLM）的泛化能力，并改进语言建模和下游任务的性能。

Jun, 2024

无需重新训练的预训练语言模型知识保留剪枝

提出了一种名为 K-pruning (Knowledge-preserving pruning) 的准确的无需重新训练的结构化修剪算法，用于预训练的语言模型压缩，并在 SQuAD 基准测试中展示了比现有的无需重新训练的修剪算法高达 58.02% p 的 F1 分数的优势。

Aug, 2023

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

剪枝语言模型：重现” 稀疏可能扬声器 “基准上的准确性

在 BERT 模型的剪枝过程中，我们提出了一组成功剪枝的通用指南，包括与目标稀疏度相关的训练、稀疏化和学习率调整调度的简单方法，以及在 LLM 上进行知识蒸馏时适当参数化的重要性，这些简单的洞察力使我们在经典 BERT 剪枝基准和 SMC 基准上取得了最先进的结果，表明即使是经典的渐进磁度剪枝方法也可以以正确的方法得到竞争性的结果。

Dec, 2023