从头开始学习 N:M 细粒度结构稀疏神经网络
本文研究 N:M 稀疏性训练的不同方法,并提出了两种新的基于衰减的修剪方法,即 “修剪掩码衰减” 和 “稀疏结构衰减”。研究表明,这些提出的方法在保持与非结构化稀疏性可比的模型精度同时,增加的总训练计算量(FLOPs)相对较小。
Sep, 2022
本研究提出了一种基于 DST 方法的 N:M 结构稀疏化学习方案,其具有较高的稀疏度并支持常见的硬件加速方式,在理论和实践中都表现出较好的泛化性能与较低的推理时间。
May, 2023
本文提出了一种新的修剪方法,用于在不影响恢复精度的情况下减小图像修复网络的尺寸,该方法根据每个层的不同计算复杂度和性能要求确定 N:M 结构稀疏的修剪比,通过大量的实验结果表明,该方法在超分辨率和去模糊任务中的表现优于以前的修剪方法。
Apr, 2022
本研究提出了一种新的称为掩码多样性的度量方法来降低 DNN 的内存占用,并介绍了一种可同时用于前向和后向传递的新型可转置细粒度稀疏掩码,通过使用最小成本流问题来寻找最优的可转置掩码,并且还提出了一种将无结构稀疏模型转换为 N:M 细粒度块稀疏模型的方法。
Feb, 2021
本文提出了一种结构稀疏学习方法,用于规范深度神经网络的结构和减少计算开销,通过 SSL 算法,可以在 CPU 和 GPU 设备中获得 5.1x 和 3.1x 的卷积层计算加速,同时可以通过规范 DNN 结构来提高分类准确性。
Aug, 2016
本研究分析稀疏性对深度神经网络加速器的设计效率和预测精度的影响,证明了相对于细粒度稀疏性,粗粒度稀疏性能够在保持同等精度的前提下获得更好的压缩率和更高效的硬件设计
May, 2017
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023
本文提出了一种简单有效的框架来对深度模型进行端到端的剪枝,方法是先引入一个称为 “缩放因子” 的新参数来缩放特定结构的输出,然后对这些因子加入稀疏正则化,并通过修改的随机加速远端梯度(APG)方法解决这个优化问题。将某些因子强制为零,可以安全地移除对应的结构,从而削减 CNN 的不重要部分,该方法相较于其他需要数千次试验或迭代微调的结构选择方法具有更好的性能。
Jul, 2017
本文提出一种新的 fine-grained sparsity 方法,即平衡稀疏化方法,使得深度学习模型在商用硬件上得以高效地获得准确性和加速,同时利用 GPU 的高并行特性,取得了高达 3.1 倍的实际加速效果。
Nov, 2018