网络剪枝的三区模型

May, 2023

A Three-regime Model of Network Pruning

Yefan Zhou, Yaoqing Yang, Arin Chang, Michael W. Mahoney

TL;DR通过建立一个基于学习统计力学及 NN 模型训练超参数的温度与负载参数来预测预处理模型中超参数调整对下剪枝性能的影响，并通过三重模型来解释高温度的两极效应与全局结构的转移现象，并提出了三个本文实验案例应用：超参数调整、模型选择和剪枝效果最佳化。

Abstract

Recent work has highlighted the complex influence training hyperparameters, e.g., the number of training epochs, can have on the prunability of machine learning models. Perhaps surprisingly, a systematic approach to predict precisely how adjusting a specific hyperparameter will affect prunability remains elusive. To address this gap, we introduce a phenomeno

发现论文，激发创造

重新思考网络剪枝的价值

本研究发现，在针对低资源设置中减少深度模型推理成本的网络修剪过程中，训练大模型通常不是获得高效终端模型的必要条件，学到的“重要”权重通常对小模型没有用，修剪的架构本身比继承的“重要”权重更重要，并且此方法可作为架构搜索范式。本文还比较了“Lottery Ticket Hypothesis”，发现在最佳学习率下，与随机初始化相比，其“获胜券”初始化并未带来提高。

Oct, 2018

PruneTrain: 动态稀疏模型重组快速神经网络训练

我们提出了PruneTrain，这是一种成本高效的机制，可逐步减少训练期间的计算成本，通过使用结构化组套骨骼正则化方法和其他重新配置技术，可以在GPU加速器上高效处理缩小了的卷积神经网络模型，从而实现减少计算成本40％和训练时间39％的效果。

Jan, 2019

神经网络剪枝中的泛化稳定性权衡

通过分析剪枝过程中的行为，我们发现剪枝的波动性（即剪枝后的测试准确性下降）可以提高泛化性能，这种“泛化稳定性交换”的现象出现在各种剪枝设置中，可能是因为剪枝类似于注入噪声的效果而导致正则化，从而产生泛化改进，这可以解释剪枝提高泛化和过度参数化网络高泛化性能的相容性。

Jun, 2019

初始化时的鲁棒剪枝

深度神经网络修剪方法的全面理论分析及其在各种网络架构上的实验验证。

Feb, 2020

关于跨尺度修剪的可预测性

通过功能近似，我们证明了迭代幅值修剪网络的错误可以预测，并且遵循对网络结构、任务、修剪等级等参数的不变性；我们表明这个近似适用于大规模数据和体系结构，从而为未来构建大规模网络提供了有用的理论支持。

Jun, 2020

神经网络初始化时的剪枝：为什么我们会错过目标？

研究表明神经网络在初始化阶段进行剪枝是可能的，但是现有方法（SNIP、GraSP、SynFlow和magnitude pruning）表现不如训练后的magnitude pruning，可能是因为这些方法的权重剪枝决策可以通过每层选择剪枝权重比例来替换，这反映出底层剪枝启发式算法及初始化阶段进行剪枝的挑战。

Sep, 2020

网络剪枝分析的梯度流框架

该篇研究通过梯度流的方式，研究了深度神经网络早期剪枝的影响，通过多组实验验证了几种不同的影响度量标准，从而在神经网络剪枝的早期阶段提出了一种更加有效的剪枝方法。

Sep, 2020

有意义的网络剪枝：重新训练变体的案例研究

本文分析不同的修剪机制对神经网络修剪重训练的影响

May, 2021

训练前进行修剪可能改善泛化性能，可以证明

该研究可以通过不同的修剪比率来影响模型的梯度下降动态和泛化性能，但是过高的修剪比率可能会导致模型性能下降，从而导致模型无法学习到有用的特征。

Jan, 2023

神经网络剪枝状态为何如此混乱？关于公平性，比较设置和网络剪枝中的可训练性

本文解释了神经网络剪枝的两个迷团：更大的微调学习率的性能提升效应和继承预训练权重在滤波剪枝中没有价值的论点，并强调了网络可训练性在剪枝中的核心作用。同时提出关于如何校准剪枝基准的具体建议。

Jan, 2023