卷积神经网络的加速器感知剪枝
本文提出了一种基于滤波器减少方法的 CNNs 加速方法,它不依赖稀疏卷积库,通过移除对输出准确性影响较小的整个滤波器及其连接的特征图,大大降低了计算成本,在 CIFAR10 数据集上可以使 VGG-16 推理时间减少 34%、ResNet-110 推理时间减少 38%,并且通过重新训练网络可以接近原始准确性。
Aug, 2016
该论文提出了一种基于 L0-norm 约束优化问题的交叉栏架构感知修剪框架,其中采用了 L0-norm 约束梯度下降(LGD)与弛豫概率投影(RPP)来寻找两个阶段的稀疏性,并提出了输入特征映射(FMs)重新排序方法来提高模型准确性。实验结果表明,该方法可在不降低准确性的情况下将交叉栏架开销减少 44%-72%,为在各种交叉栏架设备上映射 CNN 提供了一种高效的新型协同设计解决方案。
Jul, 2018
本文提出了一种自适应基于激活的结构化裁剪方法,以自动高效地生成满足用户要求的小型、准确和硬件高效的模型,它提出了迭代性结构化裁剪和自适应剪枝策略,可在不降低精度的情况下大幅减少参数和 FLOPs
Jan, 2022
本研究旨在通过对卷积神经网络的通道剪枝方法进行优化,以提高在移动和嵌入式设备上的计算效率,虽然有些情况下通道剪枝算法可能会损害计算性能,但是我们还是发现采用基于性能的剪枝会达到预期的效果。
Feb, 2020
基于模型压缩和硬件加速,本研究通过剪枝方法对高度互联的卷积层的连接汇如 YOLOv7 中进行处理,并通过迭代敏感度分析、剪枝和模型微调,显著减少了模型大小,同时保持了可比较的模型准确性。最终将剪枝模型部署到 FPGA 和 NVIDIA Jetson Xavier AGX 上,与未剪枝的模型相比,在卷积层中实现了 2 倍的加速,并在 FPGA 上达到了每秒 14 帧的实时能力。
May, 2024
本文介绍一种基于辅助门控机制的结构化网络剪枝方法,通过给主干网中的块分配重要性标记,并提出了一种块级剪枝的投票策略来解决移动设备上使用卷积神经网络时遇到的成本问题。通过知识蒸馏的三阶段训练计划,提高了模型性能,实现了更好的压缩率。实验证明该方法在分类任务中可以取得最先进的压缩性能。此外,通过提供预训练模型,我们的方法可以与其他剪枝方法协同集成,从而实现比未剪枝模型更优异的性能,并减少了超过 93%的浮点运算。
May, 2022
本文提出一种名为 “结构化概率剪枝” 的卷积神经网络加速新方法,采用概率剪枝方式剪枝卷积层权重,加速 AlexNet 和 VGG-16 在 ImageNet 分类中 4 倍和 2 倍的速度,并且只有 0.3% 和 0.8% 的前 5 位准确率损失。此外,SPP 可直接应用于加速 ResNet 等多分支 CNN 网络,且在 ImageNet 上只有 0.8% 的准确率损失。
Sep, 2017
本文提出 PowerPruning 方法,通过选择在 MAC 操作中消耗更少功率的权重,以及考虑所选择权重的时序特征和所有激活转移,进一步选择导致小延迟的权重和激活,从而在不修改 MAC 单位的情况下减小了 MAC 单位敏化电路路径的最大延迟,实现了进一步的供应电压灵活缩放,使得该方法能够在仅有轻微精度损失的情况下,最多可将硬件上深度神经网络的功耗降低 78.3%。
Mar, 2023
通过识别三个关键属性,我们提出了一种适用于 ADC 特定效率低下问题的剪枝方法,实现 ADC 能量的降低并减少精度损失,从而提高深度学习效率。
Mar, 2024