运动剪枝：通过微调实现自适应稀疏性

May, 2020

运动剪枝：通过微调实现自适应稀疏性

Movement Pruning: Adaptive Sparsity by Fine-Tuning

Victor Sanh, Thomas Wolf, Alexander M. Rush

TL;DR本文提出一种基于移动修剪的权重修剪方法，相比于纯监督学习中使用的幅度修剪方法，更适用于预训练模型微调，实验证明在高稀疏度下，此方法对预训练语言模型的剪枝效果更好，结合蒸馏技术最大程度地减小模型参数，同时保持模型准确率。

Abstract

magnitude pruning is a widely used strategy for reducing model size in pure supervised learning; however, it is less effective in the transfer learning regime that has become standard for state-of-the-art natural

magnitude pruning transfer learning movement pruning pretrained language models model size reduction

发现论文，激发创造

无需微调的预训练语言模型剪枝

本研究提出基于一阶信息的 Static Model Pruning 方法，该方法不需要微调即可压缩 Pre-trained Language Models (PLMs)，并在各种稀疏水平下展现出显著的性能优势和更高的参数效率。

Oct, 2022

基于互信息的逐层模型剪枝

该论文提出的修剪策略通过从更全局的角度运作，基于顶层训练信号逐层传播全局信号，从而在相同稀疏度水平下获得更高的性能和更大的加速，避免了权重基础剪枝技术中的内存访问不规则性。

Aug, 2021

基于幅度剪枝的层自适应稀疏化

这篇论文针对神经网络修剪方法提出一种基于重要性分数的全局修剪方法（LAMP），不需要人工调参或加重的计算，使用在图像分类任务上表现出优于现有算法的效果。

Oct, 2020

生成式语言模型结构修剪中的关键因素是什么？

本文采用常见的结构剪枝方法，包括幅值、随机和移动剪枝，并提出了全球独特的移动剪枝技术（GUM）来减少神经元冗余，以提高自动生成的自然语言的性能。

Feb, 2023

通过刺激训练增强稀疏化

基于稀疏化剪枝的研究中，我们提出了一种增强稀疏化范式的结构化剪枝框架 (STP)，通过自蒸馏的方式维持被剪枝权重的大小并增强保留权重的表现力。此外，为了找到最优的剪枝网络架构，我们采用了多维架构空间和知识蒸馏引导的探索策略，同时使用子网变异扩展技术来减小蒸馏的容量差距。大量实验证明了 STP 的有效性，特别是在极度激进的剪枝情况下，例如在 ImageNet 上对 ResNet-50 进行剪枝，保持 95.11% 的 Top-1 准确率（从 76.15% 减少 85% 的浮点操作）。

Mar, 2024

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

基于幅度注意力的动态剪枝

本文提出了一种新颖的动态裁剪方法，称之为基于数量级注意力的动态裁剪 (MAP) 方法，该方法在前向和反向路径中均运用了权重的重要性来动态探索稀疏模型结构，可以在更高效的情况下实现密集模型的性能，并且在 CIFAR-10/100 和 ImageNet 数据集上的表现比以前的裁剪方法更好。

Jun, 2023

通过修剪激活梯度加速 CNN 训练

通过修剪更小的梯度和考虑激活梯度的统计分布，我们提出了一种方法来加速 CNN 训练，这将不会影响准确率。

Aug, 2019

通过剪枝压缩神经机器翻译模型

本文探讨了三种基于大小的剪枝模式对 NMT 模型进行压缩，通过实验证明了剪枝技术是一种有效的压缩技术，并且可以通过再训练来恢复或甚至超越原始性能。

Jun, 2016

可微运输剪枝

本文提出一种新的精确剪枝技术，利用有效的最优传输方案，使得算法自动调整探索 - 开发行为，从而在 3 个不同的数据集、5 个不同的模型、各种剪枝比例和两种稀疏度预算和剪枝颗粒度等方面均取得了先进的性能。

Jul, 2023