无需重新训练的预训练语言模型知识保留剪枝

Aug, 2023

无需重新训练的预训练语言模型知识保留剪枝

Knowledge-preserving Pruning for Pre-trained Language Models without Retraining

Seungcheol Park, Hojun Choi, U Kang

TL;DR提出了一种名为 K-pruning (Knowledge-preserving pruning) 的准确的无需重新训练的结构化修剪算法，用于预训练的语言模型压缩，并在 SQuAD 基准测试中展示了比现有的无需重新训练的修剪算法高达 58.02% p 的 F1 分数的优势。

Abstract

Given a pre-trained language model, how can we efficiently compress it without retraining? Retraining-free structured pruning algorithms a

pre-trained language model compress structured pruning algorithms knowledge preservation retraining-free pruning algorithms

发现论文，激发创造

面向鲁棒剪枝：一种自适应知识保留剪枝策略

本文提出了一种基于事先训练的知识的后期剪枝策略，旨在在剪枝过程中保留更多事先训练的知识，从而提高语言模型的鲁棒性。与其他最先进的基准方法相比，在数据集 SST2、IMDB 和 AGNews 上，我们的方法在准确性、稀疏性、鲁棒性和剪枝成本之间展现出了卓越的平衡，这是对语言模型鲁棒剪枝的一大进步。

Oct, 2023

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

基于归因修剪的多任务语言模型任务特定压缩

本研究提出了一种新颖的多任务语言模型压缩方法，使用剪枝方法，通过使用属性方法确定哪些神经元对于执行特定任务是必不可少的，然后对于不重要的神经元进行任务特定的修剪，进一步将该方法扩展到适用于低资源和无监督的场景。通过实验可以发现，该压缩方法不需要训练，使用少量计算资源，且不会破坏语言模型的预先训练的知识，且可以显着优于基线修剪方法，并且在未见过领域的情况下仍然保持性能。

May, 2022

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

使用原则重要性和自我正则化剪枝预训练语言模型

本研究提出了一种基于等式约束的 0-1 整数线性规划问题和自我正则化机制的迭代模型修剪方法，应用于各种基于 Transformer 的 PLMs，使得在高稀疏度时具有更好的泛化性能。

May, 2023

探究多语言预训练模型的结构剪枝：设置、算法和效率

本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面：设置、算法和效率，并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较，我们提出了一种简单的方法 —— 动态稀疏化，它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白，并为未来的研究提供启示。

Apr, 2022

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023