网络剪枝的三区模型
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的“重要”权重通常对小模型没有用,修剪的架构本身比继承的“重要”权重更重要,并且此方法可作为架构搜索范式。本文还比较了“Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其“获胜券”初始化并未带来提高。
Oct, 2018
我们提出了PruneTrain,这是一种成本高效的机制,可逐步减少训练期间的计算成本,通过使用结构化组套骨骼正则化方法和其他重新配置技术,可以在GPU加速器上高效处理缩小了的卷积神经网络模型,从而实现减少计算成本40%和训练时间39%的效果。
Jan, 2019
通过分析剪枝过程中的行为,我们发现剪枝的波动性(即剪枝后的测试准确性下降)可以提高泛化性能,这种“泛化稳定性交换”的现象出现在各种剪枝设置中,可能是因为剪枝类似于注入噪声的效果而导致正则化,从而产生泛化改进,这可以解释剪枝提高泛化和过度参数化网络高泛化性能的相容性。
Jun, 2019
通过功能近似,我们证明了迭代幅值修剪网络的错误可以预测,并且遵循对网络结构、任务、修剪等级等参数的不变性;我们表明这个近似适用于大规模数据和体系结构,从而为未来构建大规模网络提供了有用的理论支持。
Jun, 2020
研究表明神经网络在初始化阶段进行剪枝是可能的,但是现有方法(SNIP、GraSP、SynFlow和magnitude pruning)表现不如训练后的magnitude pruning,可能是因为这些方法的权重剪枝决策可以通过每层选择剪枝权重比例来替换,这反映出底层剪枝启发式算法及初始化阶段进行剪枝的挑战。
Sep, 2020
该篇研究通过梯度流的方式,研究了深度神经网络早期剪枝的影响,通过多组实验验证了几种不同的影响度量标准,从而在神经网络剪枝的早期阶段提出了一种更加有效的剪枝方法。
Sep, 2020
本文解释了神经网络剪枝的两个迷团:更大的微调学习率的性能提升效应和继承预训练权重在滤波剪枝中没有价值的论点,并强调了网络可训练性在剪枝中的核心作用。同时提出关于如何校准剪枝基准的具体建议。
Jan, 2023