基于梯度的预训练语言模型内部注意力剪枝
我们提出了一种名为 BlockPruner 的新型无需训练的结构化修剪方法,通过定位多头注意力和多层感知机块中的冗余实现更精细的修剪,实验证明,与现有方法相比,BlockPruner 在各种下游任务中实现了更精确和有效的修剪。
Jun, 2024
本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。
Aug, 2021
通过引入一个软正则化器来优化自注意力机制的计算,新提出的 LeOPArd 位串行体系结构可以在不损害平均精度的情况下提高计算速度和降低能源消耗。
Apr, 2022
预训练的大型语言模型的梯度为基础的模型修剪器(GBLM-Pruner)通过利用卡尔曼几何中的几何相互关联性明显胜过其他竞争对手,并在各种语言评估中超过了幅度修剪、Wanda 和 SparseGPT。
Nov, 2023
本文提出了一种精细的注意力头修剪方法来解决自监督预训练模型中的模型压缩问题,并介绍了直通估计量到 L0 正则化中以进一步加速修剪模型,超越 Wav2vec2.0 基准模型的表现,且具有 72% 更少的参数和两倍的推理速度。
Jun, 2023
通过研究注意力头对大型语言模型的公平性和性能的影响,提出一种修剪注意力头的全新方法,能减少性别偏见约 19%至 39.5%,而性能仅稍微下降。
Dec, 2023
用于资源受限设备的大型语言模型结构剪枝方法,在多层结构的基础上,通过自适应建模和融合估计结果实现了对每个子结构的重要性的自适应调整,实验结果表明在主流数据集上相比最先进的方法,平均准确率提高了 1.1%,1.02%,2.0%和 1.2%。
Mar, 2024
基于通道相似性和修剪指示器的多头注意力机制自动修剪方法,通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性,并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。
May, 2024
本文采用常见的结构剪枝方法,包括幅值、随机和移动剪枝,并提出了全球独特的移动剪枝技术(GUM)来减少神经元冗余,以提高自动生成的自然语言的性能。
Feb, 2023