基于梯度的预训练语言模型内部注意力剪枝

Dec, 2022

基于梯度的预训练语言模型内部注意力剪枝

Gradient-based Intra-attention Pruning on Pre-trained Language Models

Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang

TL;DR本文提出了一种基于梯度的内部关注力修剪方法（GRAIN），可以解决现有算法在模型剪枝时受限于关注头大小和前馈隐藏维度的问题，并结合了知识蒸馏技术，是一个高效的模型压缩方法。

Abstract

pre-trained language models achieve superior performance, but they are computationally expensive due to their large size. Techniques such as pruning and →

pre-trained language models pruning knowledge distillation intra-attention structures model compression

发现论文，激发创造

BlockPruner：大型语言模型的细粒度剪枝

我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法，通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪，实验证明，与现有方法相比，BlockPruner 在各种下游任务中实现了更精确和有效的修剪。

Jun, 2024

可微分的 Transformer 头部子集剪枝

本文提出了一种可微的子集剪枝技术，通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束，实现对多头注意力机制的剪枝；实验证明该技术可以实现精确控制稀疏度水平，并在自然语言推理和机器翻译方面的表现不亚于以往技术。

Aug, 2021

基于梯度学习的运行时剪枝加速注意力机制

通过引入一个软正则化器来优化自注意力机制的计算，新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。

Apr, 2022

超越大小：梯度如何塑造大型语言模型的剪枝决策

预训练的大型语言模型的梯度为基础的模型修剪器（GBLM-Pruner）通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手，并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。

Nov, 2023

面向任务的语音表示模型的结构化剪枝

本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题，并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型，超越 Wav2vec2.0 基准模型的表现，且具有 72% 更少的参数和两倍的推理速度。

Jun, 2023

公平感知的 Transformer 结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约 19％至 39.5％，而性能仅稍微下降。

Dec, 2023

无梯度结构剪枝与未标记数据

本文提出一种基于无标签数据的梯度无关结构裁剪框架，能够在不降低准确度的情况下，显著地减少预训练模型的计算成本，从而提高大型语言模型的推理效率。

Mar, 2023

大规模语言模型的高效剪枝与自适应推理融合

用于资源受限设备的大型语言模型结构剪枝方法，在多层结构的基础上，通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整，实验结果表明在主流数据集上相比最先进的方法，平均准确率提高了 1.1％，1.02％，2.0％和 1.2％。

Mar, 2024

多头注意力自动剪枝

基于通道相似性和修剪指示器的多头注意力机制自动修剪方法，通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性，并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。

May, 2024

生成式语言模型结构修剪中的关键因素是什么？

本文采用常见的结构剪枝方法，包括幅值、随机和移动剪枝，并提出了全球独特的移动剪枝技术（GUM）来减少神经元冗余，以提高自动生成的自然语言的性能。

Feb, 2023