设备上快速适应预训练模型的一次性剪枝

Jul, 2023

设备上快速适应预训练模型的一次性剪枝

One-Shot Pruning for Fast-adapting Pre-trained Models on Devices

Haiyan Zhao, Guodong Long

TL;DR基于大规模预训练模型，提出了一种适用于低能力设备的可伸缩单次剪枝方法，利用类似任务的剪枝知识从预训练模型中提取一个子网络来适应新任务，实验证明该方法在处理具有不同内存限制的多样化下游任务时，在准确性和效率方面始终优于流行的剪枝基准方法。

Abstract

large-scale pre-trained models have been remarkably successful in resolving downstream tasks. Nonetheless, deploying these models on low-capability devices still requires an effective approach, such as model pruning

large-scale pre-trained models model pruning one-shot pruning method task-specific filters/nodes convolutional neural networks (cnns)

发现论文，激发创造

从头开始剪枝

本文提出了一种新颖的网络修剪流程，允许从随机初始化的权重开始修剪，加速了传统剪枝方法的预训练负担，同时在相同的计算预算下达到了类似甚至更高的准确性。

Sep, 2019

剪枝的调适：BERT 的案例研究

本文提出了一种新的模型适应策略 —— 剪枝适应，将神经模型预先训练的连接进行修剪以优化目标任务的性能，在剩余的连接中保留原有权重；我们将剪枝适应表述为具有可区分损失的优化问题，并提出了一种有效的算法来修剪模型。结果表明，在与微调完整模型相比产生类似性能的情况下，我们的方法可以剪枝 BERT 高达 50％的权重。

May, 2021

重构网络剪枝 -- 在预训练和微调范式下

本论文研究在 NLP 领域中，对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术，相较于对其通道与层数的压缩，稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较，证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。

Apr, 2021

深度卷积神经网络的辅助门控结构自动分块剪枝

本文介绍一种基于辅助门控机制的结构化网络剪枝方法，通过给主干网中的块分配重要性标记，并提出了一种块级剪枝的投票策略来解决移动设备上使用卷积神经网络时遇到的成本问题。通过知识蒸馏的三阶段训练计划，提高了模型性能，实现了更好的压缩率。实验证明该方法在分类任务中可以取得最先进的压缩性能。此外，通过提供预训练模型，我们的方法可以与其他剪枝方法协同集成，从而实现比未剪枝模型更优异的性能，并减少了超过 93％的浮点运算。

May, 2022

重新思考网络剪枝的价值

本研究发现，在针对低资源设置中减少深度模型推理成本的网络修剪过程中，训练大模型通常不是获得高效终端模型的必要条件，学到的 “重要” 权重通常对小模型没有用，修剪的架构本身比继承的 “重要” 权重更重要，并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”，发现在最佳学习率下，与随机初始化相比，其 “获胜券” 初始化并未带来提高。

Oct, 2018

多任务深度神经网络的结构剪枝

本文研究了定结构剪枝在多任务深度神经网络模型中的有效性。通过使用基于现有单任务筛选剪枝标准和基于多任务学习筛选剪枝标准，采用迭代剪枝策略进行剪枝，本文表明在参数数目相似的情况下，与快速单任务 DNN 相比，DNN 多任务可以通过精心的超参数调整实现相似的性能，迭代权重剪枝可能不是实现良好性能剪裁模型的最好方式。

Apr, 2023

塑造效率：为设备推理修剪医学图像模型

应用机器学习进展于医疗可以改善患者结果，但是模型操作复杂性、遗留硬件和多模态千兆像素图像等问题限制了实时、设备内推理的部署。我们考虑滤波剪枝作为解决方案，在心脏病学和眼科学中探索分割模型。我们的初步结果显示最高可达 1148 倍的压缩率，质量损失最小，强调使用现成模型时应考虑任务复杂性和架构细节。在高压缩率下，滤波剪枝模型在 CPU 上比 GPU 基准具有更快的推理速度。我们还证明了这些模型的鲁棒性和泛化特性超过了基准和权重剪枝对照组。我们揭示了引人深思的问题，迈出了实现经济有效的疾病诊断、监测和预防解决方案的一步。

Sep, 2023

PruneTrain: 动态稀疏模型重组快速神经网络训练

我们提出了 PruneTrain，这是一种成本高效的机制，可逐步减少训练期间的计算成本，通过使用结构化组套骨骼正则化方法和其他重新配置技术，可以在 GPU 加速器上高效处理缩小了的卷积神经网络模型，从而实现减少计算成本 40％和训练时间 39％的效果。

Jan, 2019

单次元元剪枝：减少注意力头部无关部分

本文提出了一种称为 Single-Shot Meta-Pruning 的方法，该方法致力于压缩深度预训练的 Transformer 模型，并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比，我们的方法可以降低精调和推理的开销，并且可以选择性地剪枝 50％的注意力头，对下游任务的性能几乎没有影响，甚至提供更好的文本表示。

Nov, 2020

走向计算优化的迁移学习

本研究提出了一种简单而有效的方法，即使用预训练模型进行零 - shot 结构化剪枝，从而在尽量减少计算量的情况下实现性能的提升，实验证明，在低计算量条件下对预训练模型进行卷积过滤的剪枝可以带来超过 20% 的性能提升。

Apr, 2023