探究多语言预训练模型的结构剪枝：设置、算法和效率

ACLApr, 2022

探究多语言预训练模型的结构剪枝：设置、算法和效率

Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency

Yanyang Li, Fuli Luo, Runxin Xu, Songfang Huang, Fei Huang...

TL;DR本研究评估了基于结构化剪枝在多语言预训练语言模型上的三个方面：设置、算法和效率，并通过在九个下游任务中的实验展示了一些反直觉现象。为了方便各个稀疏度水平上的比较，我们提出了一种简单的方法 —— 动态稀疏化，它可以让模型只需要训练一次就能适应不同的模型大小。我们希望这项工作填补了关于多语言预训练模型上的结构化剪枝研究的空白，并为未来的研究提供启示。

Abstract

structured pruning has been extensively studied on monolingual pre-trained language models and is yet to be fully evaluated on their multilingual counterparts. This work investigates three aspects of structured pruning<

structured pruning multilingual pre-trained language models downstream tasks dynamic sparsification efficiency

发现论文，激发创造

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

多任务深度神经网络的结构剪枝

本文研究了定结构剪枝在多任务深度神经网络模型中的有效性。通过使用基于现有单任务筛选剪枝标准和基于多任务学习筛选剪枝标准，采用迭代剪枝策略进行剪枝，本文表明在参数数目相似的情况下，与快速单任务 DNN 相比，DNN 多任务可以通过精心的超参数调整实现相似的性能，迭代权重剪枝可能不是实现良好性能剪裁模型的最好方式。

Apr, 2023

大规模语言模型的优化结构裁剪方法

基于优化的结构剪枝方法通过在概率空间中学习剪枝掩码，通过前向传递和策略梯度估计器进行高效优化，实现对大型语言模型的剪枝，并在复杂性和效果方面超越现有方法。

Jun, 2024

自监督预训练模型结构化剪枝的语音识别与理解

该研究提出三种任务特定的结构化剪枝方法，以减少自我监督语音表示学习和前端网络的计算成本，同时保持模型准确性并提高计算效率。在实验中，该方法在减少 40% 到 50% 的计算成本的情况下，比原始 wav2vec2-base 模型更准确的表现出更高的计算效率。

Feb, 2023

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

生成式语言模型结构修剪中的关键因素是什么？

本文采用常见的结构剪枝方法，包括幅值、随机和移动剪枝，并提出了全球独特的移动剪枝技术（GUM）来减少神经元冗余，以提高自动生成的自然语言的性能。

Feb, 2023

无需重新训练的预训练语言模型知识保留剪枝

提出了一种名为 K-pruning (Knowledge-preserving pruning) 的准确的无需重新训练的结构化修剪算法，用于预训练的语言模型压缩，并在 SQuAD 基准测试中展示了比现有的无需重新训练的修剪算法高达 58.02% p 的 F1 分数的优势。

Aug, 2023

通过神经架构搜索对预训练语言模型进行结构修剪

基于预训练语言模型和神经架构搜索的结构修剪方法，通过多目标策略实现对子网络的灵活压缩，提高模型效率。

May, 2024

ALPS：面向大型语言模型的高度稀疏一次性修剪的改进优化

本文介绍了一种名为 ALPS 的基于优化的框架，用于通过操作拆分技术和预条件共轭梯度后处理步骤处理修剪问题，并结合向量化和 GPU 并行性以提高效率，在修剪目标和困惑度降低方面远远超过现有方法，特别是对于高度稀疏的模型。在 OPT-30B 模型上，其稀疏度为 70％，ALPS 在 WikiText 数据集上实现了 13％的测试困惑度减少和比现有方法提高了 19％的零样本基准性能。

Jun, 2024