本研究提出了一种新的称为掩码多样性的度量方法来降低 DNN 的内存占用,并介绍了一种可同时用于前向和后向传递的新型可转置细粒度稀疏掩码,通过使用最小成本流问题来寻找最优的可转置掩码,并且还提出了一种将无结构稀疏模型转换为 N:M 细粒度块稀疏模型的方法。
Feb, 2021
通过修剪更小的梯度和考虑激活梯度的统计分布,我们提出了一种方法来加速 CNN 训练,这将不会影响准确率。
Aug, 2019
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文研究了一种 N:M 级别的深度神经网络稀疏网络,在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点,解决了传统稀疏网络的效率问题,同时提出了一种 Sparse-refined Straight-through Estimator 方法,解决了传统优化方法下的负面影响。
本文提出了一种新的修剪方法,用于在不影响恢复精度的情况下减小图像修复网络的尺寸,该方法根据每个层的不同计算复杂度和性能要求确定 N:M 结构稀疏的修剪比,通过大量的实验结果表明,该方法在超分辨率和去模糊任务中的表现优于以前的修剪方法。
Apr, 2022
通过对参数进行稀疏化,结合稀疏激活在递归神经网络中的相乘作用,实现了对神经网络计算成本高效率的优化,可以应用于神经形态计算设备上,同时不牺牲任务性能。
Nov, 2023
通过在深度神经网络中采用结构化修剪和块稀疏性操作,目前的研究旨在通过减少激活值的内存消耗来减小 GPU 内存需求,从而降低大规模模型训练的要求并解决生态环境问题。
基于梯度稀疏性和随机矩阵理论的激活稀疏性,该研究解释了深度模型中激活稀疏性的理论机制以及其在对抗鲁棒性和性能方面的重要性,并提出了几种用于训练和稀疏调整的模块和修改的方法。
本文提出一种新的 fine-grained sparsity 方法,即平衡稀疏化方法,使得深度学习模型在商用硬件上得以高效地获得准确性和加速,同时利用 GPU 的高并行特性,取得了高达 3.1 倍的实际加速效果。
Nov, 2018
介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores),它们利用了 2:4 的稀疏模式,通过两倍的数学吞吐量加速了稠密矩阵单元,并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络,从而在稀疏张量核心上实现精确模型的高效部署。
Apr, 2021