神经剪枝中保持可训练性
本文提出了一种新的可微分的方法来对深度神经网络进行无结构权重修剪。我们的学习阈值修剪(LTP)方法通过梯度下降学习每层的阈值,与传统方法不同。此外,通过一种新的可微分 $L_0$ 正则化,LTP 能够有效地处理具有批量归一化的体系结构。LTP 能够生成一系列越来越稀疏的网络,从中可以根据稀疏度和性能要求选择所需的修剪网络。
Feb, 2020
该研究旨在通过初始修剪神经网络来提高训练和测试时的资源效率。通过保留网络中的梯度流,提出了一个名为 GraSP 的简单但有效的剪枝标准,并在 VGGNet 和 ResNet 架构上进行了广泛实验,证明其在极度稀疏的情况下具有更好的性能。
Feb, 2020
本文提出一种名为 “结构化概率剪枝” 的卷积神经网络加速新方法,采用概率剪枝方式剪枝卷积层权重,加速 AlexNet 和 VGG-16 在 ImageNet 分类中 4 倍和 2 倍的速度,并且只有 0.3% 和 0.8% 的前 5 位准确率损失。此外,SPP 可直接应用于加速 ResNet 等多分支 CNN 网络,且在 ImageNet 上只有 0.8% 的准确率损失。
Sep, 2017
在本文中,我们介绍了学习差距的概念,并强调其与泛化能力的准确相关性。实验表明,学习差距以网络倒数第二层的特征图的形式与泛化性能的变化相一致。我们提出了一种新的学习框架,LNPT,使得云端的成熟网络能够对没有标签的智能设备上的网络修剪和学习提供在线指导。我们的结果证明了这种方法优于监督训练。
Mar, 2024
研究表明,通过暂时修剪和恢复模型的子集滤波器,反复进行该过程,可以减少所学习特征的重叠,从而提高了模型的泛化能力;而在这种情况下,现有的模型修剪标准并不是选择修剪滤波器的最优策略,因此引入了滤波器之间内部正交性作为排名标准。这种方法适用于各种类型的卷积神经网络,能够提高各种任务的性能,尤其是小型网络的性能。
Nov, 2018
我们提出了一种在神经网络早期训练阶段识别和消除不相关层的算法。与权重或滤波器层剪枝相比,层剪枝能够减少神经网络中更难并行计算的顺序计算。我们采用了一种结构,在非线性网络部分周围使用剩余连接,使非线性部分进行剪枝后仍然能够在网络中传递信息。我们的方法基于变分推断原理,在神经网络权重上使用高斯规模混合先验,从而在训练和推理过程中实现大幅成本节省。该算法在 MNIST、CIFAR-10 和 ImageNet 数据集以及常见的 LeNet、VGG16 和 ResNet 架构上进行了评估,模拟实验结果表明,由于并行训练和剪枝,我们的方法在层剪枝方面以较低的计算成本实现了最先进的性能。
Jun, 2024
本论文研究了通过神经再生技术改进的渐进式剪枝算法(GraNet),它结合了取得与单次剪枝同等性能和训练 / 推理效率的优点,尤其是其稀疏 - 稀疏模式极大地提高了 ResNet-50 在 ImageNet 上的性能。
Jun, 2021
本文研究了网络剪枝策略的扩展,力图在保留网络的鲁棒性的同时设计更紧凑的神经网络,并基于对现有策略的缺陷进行改进,最终在 CIFAR-10 数据集上取得了不俗的成绩。
Jun, 2019
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感知的稀疏剪枝方法可以实现 20 倍的参数 / FLOPs 压缩并且不会明显损失模型的性能。
Apr, 2021
提出了一种新的神经网络卷积核剪枝方法,通过 Taylor 扩展来近似剪枝参数变化引起的代价函数的改变,并结合反向传播的微调来保持剪枝网络的良好泛化性能,该方法在细粒度分类任务中表现出优异的性能。
Nov, 2016