设备上快速适应预训练模型的一次性剪枝
本文提出了一种新的模型适应策略 —— 剪枝适应,将神经模型预先训练的连接进行修剪以优化目标任务的性能,在剩余的连接中保留原有权重;我们将剪枝适应表述为具有可区分损失的优化问题,并提出了一种有效的算法来修剪模型。结果表明,在与微调完整模型相比产生类似性能的情况下,我们的方法可以剪枝 BERT 高达 50%的权重。
May, 2021
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
本文介绍一种基于辅助门控机制的结构化网络剪枝方法,通过给主干网中的块分配重要性标记,并提出了一种块级剪枝的投票策略来解决移动设备上使用卷积神经网络时遇到的成本问题。通过知识蒸馏的三阶段训练计划,提高了模型性能,实现了更好的压缩率。实验证明该方法在分类任务中可以取得最先进的压缩性能。此外,通过提供预训练模型,我们的方法可以与其他剪枝方法协同集成,从而实现比未剪枝模型更优异的性能,并减少了超过 93%的浮点运算。
May, 2022
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的 “重要” 权重通常对小模型没有用,修剪的架构本身比继承的 “重要” 权重更重要,并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其 “获胜券” 初始化并未带来提高。
Oct, 2018
本文研究了定结构剪枝在多任务深度神经网络模型中的有效性。通过使用基于现有单任务筛选剪枝标准和基于多任务学习筛选剪枝标准,采用迭代剪枝策略进行剪枝,本文表明在参数数目相似的情况下,与快速单任务 DNN 相比,DNN 多任务可以通过精心的超参数调整实现相似的性能,迭代权重剪枝可能不是实现良好性能剪裁模型的最好方式。
Apr, 2023
应用机器学习进展于医疗可以改善患者结果,但是模型操作复杂性、遗留硬件和多模态千兆像素图像等问题限制了实时、设备内推理的部署。我们考虑滤波剪枝作为解决方案,在心脏病学和眼科学中探索分割模型。我们的初步结果显示最高可达 1148 倍的压缩率,质量损失最小,强调使用现成模型时应考虑任务复杂性和架构细节。在高压缩率下,滤波剪枝模型在 CPU 上比 GPU 基准具有更快的推理速度。我们还证明了这些模型的鲁棒性和泛化特性超过了基准和权重剪枝对照组。我们揭示了引人深思的问题,迈出了实现经济有效的疾病诊断、监测和预防解决方案的一步。
Sep, 2023
我们提出了 PruneTrain,这是一种成本高效的机制,可逐步减少训练期间的计算成本,通过使用结构化组套骨骼正则化方法和其他重新配置技术,可以在 GPU 加速器上高效处理缩小了的卷积神经网络模型,从而实现减少计算成本 40%和训练时间 39%的效果。
Jan, 2019
本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可以降低精调和推理的开销,并且可以选择性地剪枝 50%的注意力头,对下游任务的性能几乎没有影响,甚至提供更好的文本表示。
Nov, 2020
本研究提出了一种简单而有效的方法,即使用预训练模型进行零 - shot 结构化剪枝,从而在尽量减少计算量的情况下实现性能的提升,实验证明,在低计算量条件下对预训练模型进行卷积过滤的剪枝可以带来超过 20% 的性能提升。
Apr, 2023