通过分层最优脑外科医生学习剪枝深度神经网络
我们提出了一种在神经网络早期训练阶段识别和消除不相关层的算法。与权重或滤波器层剪枝相比,层剪枝能够减少神经网络中更难并行计算的顺序计算。我们采用了一种结构,在非线性网络部分周围使用剩余连接,使非线性部分进行剪枝后仍然能够在网络中传递信息。我们的方法基于变分推断原理,在神经网络权重上使用高斯规模混合先验,从而在训练和推理过程中实现大幅成本节省。该算法在 MNIST、CIFAR-10 和 ImageNet 数据集以及常见的 LeNet、VGG16 和 ResNet 架构上进行了评估,模拟实验结果表明,由于并行训练和剪枝,我们的方法在层剪枝方面以较低的计算成本实现了最先进的性能。
Jun, 2024
我们介绍了一种新颖而简单的神经网络剪枝框架,通过引入 Gumbel-Softmax 技术,在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构,实现了网络的卓越压缩能力,保持了在 MNIST 数据集上的高准确性,仅使用了原始网络参数的 0.15%。此外,我们的框架提升了神经网络的可解释性,不仅能够轻松从剪枝网络中提取特征重要性,而且能够可视化特征对称性和信息传递路径,学习策略通过深度学习得到,但却令人惊讶地直观且可理解,专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。
Nov, 2023
我们提出了一种新颖的层自适应权重剪枝方法,通过优化输出失真最小化并同时遵守目标剪枝比例约束,实现了对深度神经网络 (DNNs) 的优化。我们发现和利用了多个层的权重剪枝导致的输出失真具有非常重要的可加性特性,并基于此特性将剪枝问题建模为一个组合优化问题,并通过动态规划高效解决。我们用子问题分解的方式使问题具有线性时间复杂度,从而使我们的优化算法快速且适用于 CPU 运行。在 ImageNet 和 CIFAR-10 数据集上的广泛实验证明了我们方法的优越性。在 CIFAR-10 上,我们的方法在 ResNet-32、VGG-16 和 DenseNet-121 的 top-1 准确率方面分别超过了其他方法 1.0%、0.5% 和 0.7%。在 ImageNet 上,我们的方法分别比其他方法提高了 VGG-16 和 ResNet-50 的 top-1 准确率高达 4.7% 和 4.6%。这些结果突出了我们的方法通过层自适应权重剪枝来提升 DNN 性能的效果和实用性。代码将在此 https URL 上提供。
Aug, 2023
本研究探讨在已训练的神经网络模型中修剪神经元的问题并提出了一种系统性的方式去除冗余的相似神经元,并且通过在 MNIST 训练网络中修剪密集连接层,达到 85% 的总参数去除率,在 AlexNet 上达到 35%去除率,并且没有明显影响其性能。
Jul, 2015
通过剪枝和迁移学习,我们提出了一种新颖的前馈神经网络构建方法,能在不损失准确率的情况下压缩参数数量超过 70%,并且通过精心选择剪枝参数,大多数精炼模型的性能优于原始模型,从而不仅有助于更高效的模型设计,而且更有效的使用。
Dec, 2023
深度学习在通信系统中的成功应用使得深度神经网络成为信号分类的首选方法。然而,这些模型通常具有高计算复杂度和大的模型尺寸,这阻碍了它们在通信系统中的实际部署。为解决这个挑战,我们提出了一种新型的层剪枝方法,通过将模型分解成几个连续的块,每个块包含具有相似语义的连续层,然后根据层的贡献确定每个块内需要保留的层,最后重新组装剪枝后的块并对紧凑模型进行微调。对五个数据集进行的广泛实验证明了我们的方法在各种最新基准方法(包括层剪枝和通道剪枝方法)上的高效性和有效性。
Jun, 2024
本论文提出了一种用于深度神经网络的训练后权重修剪方法,其在生产环境中能够达到可接受的精度水平,并且足够快速以在桌面 CPU 或边缘设备等通用硬件上运行。该方法针对基于自动生成的合成分形图像的计算机视觉模型的无数据扩展,实现了数据免费的神经网络修剪,并在 ImageNet 数据集上获得了最新的数据免费神经网络修剪结果,对于 50% 的稀疏率下使用 ResNet50 的 top@1 准确率丢失约为 1.5%。在使用真实数据时,能够获得在 8 位精度下稀疏率为 65% 的 ResNet50 模型,而仅准确率下降约为 1%。
Apr, 2021
本文通过提出一种新的方法,证明神经网络剪枝相当于给隐藏层的激活值加入一定量的差分隐私噪音,进而探讨了神经网络剪枝与差分隐私之间的关系以及其实际应用的可行性与效果,发现在某些情况下,神经网络剪枝可能是比差分隐私更为有效的方法。
Mar, 2020
本文提出了 LayerPrune 框架,相较于传统基于 filter 的剪枝方法,LayerPrune 基于不同的剪枝指标实现了更高的延迟降低,并使用相同的 filter 重要性判定剪枝最不重要的层,较好地平衡了准确率和删除率。
Jul, 2020
本研究提出了一种 DNN 训练技术,该技术可以在不影响准确率的情况下,只学习了部分全参数集。此方法使用反向传播约束更新权重的总数,以仅跟踪具有最高总梯度的权重。通过确保总权重扩散保持接近于基线未修剪 SGD 的扩散,使用我们技术进行修剪的网络能够在网络架构中保留领先的状态,包括先前被认为难以压缩的网络。我们在 ImageNet 上使用 ResNet18 观察到了 11.7 倍的权重减少无准确性损失,最多可达 24.4 倍,但具有小的准确性影响。
Jun, 2018