网络剪枝分析的梯度流框架
我们介绍了一种新颖而简单的神经网络剪枝框架,通过引入 Gumbel-Softmax 技术,在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构,实现了网络的卓越压缩能力,保持了在 MNIST 数据集上的高准确性,仅使用了原始网络参数的 0.15%。此外,我们的框架提升了神经网络的可解释性,不仅能够轻松从剪枝网络中提取特征重要性,而且能够可视化特征对称性和信息传递路径,学习策略通过深度学习得到,但却令人惊讶地直观且可理解,专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。
Nov, 2023
本文介绍了一种以结构削减神经网络参数为主要内容的新方法,可通过估算神经元对最终损失的贡献并逐步去除小分值的神经元来减少计算、能量和内存传输成本。对于在 ImageNet 上训练的现代网络,我们测量了我们的方法计算的贡献与真实重要性的可靠估计之间的高度(>93%)相关性。使用所提出的方法进行修剪可实现在准确性,FLOPs 和参数减少方面的超越最新技术的改进。在 ResNet-101 上,我们通过删除 30%的参数实现了 40%的 FLOPs 减少,在 ImageNet 的前 1 个准确度方面损失了 0.02%。
Jun, 2019
该研究旨在通过初始修剪神经网络来提高训练和测试时的资源效率。通过保留网络中的梯度流,提出了一个名为 GraSP 的简单但有效的剪枝标准,并在 VGGNet 和 ResNet 架构上进行了广泛实验,证明其在极度稀疏的情况下具有更好的性能。
Feb, 2020
本文提出一种基于梯度流的模型修剪方法,综合考虑 BN 和 ReLU 层后的卷积操作对整个特征映射的影响,采用 BN 层中的一阶泰勒多项式标识神经元的重要程度,该方法在图像分类和去噪任务上取得了良好的性能表现。
Oct, 2021
本文提出了 LayerPrune 框架,相较于传统基于 filter 的剪枝方法,LayerPrune 基于不同的剪枝指标实现了更高的延迟降低,并使用相同的 filter 重要性判定剪枝最不重要的层,较好地平衡了准确率和删除率。
Jul, 2020
使用启发式方法来估计神经元的全局重要性,通过传播随机梯度并对梯度幅度进行归一化,改进了现有方法的性能,适用于 ResNet 和 VGG 架构以及 CIFAR-100 和 STL-10 数据集。
Oct, 2023
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的 “重要” 权重通常对小模型没有用,修剪的架构本身比继承的 “重要” 权重更重要,并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其 “获胜券” 初始化并未带来提高。
Oct, 2018