网络剪枝分析的梯度流框架

ICLRSep, 2020

A Gradient Flow Framework For Analyzing Network Pruning

Ekdeep Singh Lubana, Robert P. Dick

TL;DR该篇研究通过梯度流的方式，研究了深度神经网络早期剪枝的影响，通过多组实验验证了几种不同的影响度量标准，从而在神经网络剪枝的早期阶段提出了一种更加有效的剪枝方法。

Abstract

Recent network pruning methods focus on pruning models early-on in training. To estimate the impact of removing a parameter, these methods use importance measures that were originally designed to prune trained models. Despite lacking justification for their use early-on in training, su

network pruning importance measures parameter removal early training model evolution dynamics

发现论文，激发创造

梯度下降剪枝神经网络

我们介绍了一种新颖而简单的神经网络剪枝框架，通过引入 Gumbel-Softmax 技术，在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构，实现了网络的卓越压缩能力，保持了在 MNIST 数据集上的高准确性，仅使用了原始网络参数的 0.15％。此外，我们的框架提升了神经网络的可解释性，不仅能够轻松从剪枝网络中提取特征重要性，而且能够可视化特征对称性和信息传递路径，学习策略通过深度学习得到，但却令人惊讶地直观且可理解，专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。

Nov, 2023

神经网络剪枝的重要性评估

本文介绍了一种以结构削减神经网络参数为主要内容的新方法，可通过估算神经元对最终损失的贡献并逐步去除小分值的神经元来减少计算、能量和内存传输成本。对于在 ImageNet 上训练的现代网络，我们测量了我们的方法计算的贡献与真实重要性的可靠估计之间的高度（>93％）相关性。使用所提出的方法进行修剪可实现在准确性，FLOPs 和参数减少方面的超越最新技术的改进。在 ResNet-101 上，我们通过删除 30％的参数实现了 40％的 FLOPs 减少，在 ImageNet 的前 1 个准确度方面损失了 0.02％。

Jun, 2019

保持梯度流的情况下在训练之前选择获胜的票数

该研究旨在通过初始修剪神经网络来提高训练和测试时的资源效率。通过保留网络中的梯度流，提出了一个名为 GraSP 的简单但有效的剪枝标准，并在 VGGNet 和 ResNet 架构上进行了广泛实验，证明其在极度稀疏的情况下具有更好的性能。

Feb, 2020

基于梯度流的深度学习模型压缩中的显著性探究

本文提出一种基于梯度流的模型修剪方法，综合考虑 BN 和 ReLU 层后的卷积操作对整个特征映射的影响，采用 BN 层中的一阶泰勒多项式标识神经元的重要程度，该方法在图像分类和去噪任务上取得了良好的性能表现。

Oct, 2021

初始化时的鲁棒剪枝

深度神经网络修剪方法的全面理论分析及其在各种网络架构上的实验验证。

Feb, 2020

是滤波剪枝，还是层剪枝，这是一个问题

本文提出了 LayerPrune 框架，相较于传统基于 filter 的剪枝方法，LayerPrune 基于不同的剪枝指标实现了更高的延迟降低，并使用相同的 filter 重要性判定剪枝最不重要的层，较好地平衡了准确率和删除率。

Jul, 2020

DRIVE: 双梯度快速迭代剪枝

现代深度神经网络 (DNNs) 由数百万个参数组成，在训练和推断过程中需要高性能计算。修剪是一个显著减少 DNNs 空间和时间复杂度的解决方案。

Apr, 2024

神经网络剪枝中基于随机梯度的重要性估计

使用启发式方法来估计神经元的全局重要性，通过传播随机梯度并对梯度幅度进行归一化，改进了现有方法的性能，适用于 ResNet 和 VGG 架构以及 CIFAR-100 和 STL-10 数据集。

Oct, 2023

训练前进行修剪可能改善泛化性能，可以证明

该研究可以通过不同的修剪比率来影响模型的梯度下降动态和泛化性能，但是过高的修剪比率可能会导致模型性能下降，从而导致模型无法学习到有用的特征。

Jan, 2023

重新思考网络剪枝的价值

本研究发现，在针对低资源设置中减少深度模型推理成本的网络修剪过程中，训练大模型通常不是获得高效终端模型的必要条件，学到的 “重要” 权重通常对小模型没有用，修剪的架构本身比继承的 “重要” 权重更重要，并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”，发现在最佳学习率下，与随机初始化相比，其 “获胜券” 初始化并未带来提高。

Oct, 2018