激活和神经梯度的最优细粒度 N:M 稀疏性

Mar, 2022

激活和神经梯度的最优细粒度 N:M 稀疏性

Optimal Fine-Grained N:M sparsity for Activations and Neural Gradients

Brian Chmiel, Itay Hubara, Ron Banner, Daniel Soudry

TL;DR该论文研究在深度学习中如何使用 N:M 稀疏性技术来压缩数据并加速训练，并提出了一种最优的基于张量的方法来剪裁神经梯度，从而达到训练加速的效果。

Abstract

In deep learning, fine-grained N:M sparsity reduces the data footprint and bandwidth of a General Matrix multiply (GEMM) by x2, and doubles throughput by skipping computation of zero values. So far, it was only u

deep learning sparsity neural gradients optimality criteria training

发现论文，激发创造

加速稀疏神经网络的训练：一种可以证明有效的 N:M 可转换掩码发现方法

本研究提出了一种新的称为掩码多样性的度量方法来降低 DNN 的内存占用，并介绍了一种可同时用于前向和后向传递的新型可转置细粒度稀疏掩码，通过使用最小成本流问题来寻找最优的可转置掩码，并且还提出了一种将无结构稀疏模型转换为 N:M 细粒度块稀疏模型的方法。

Feb, 2021

通过修剪激活梯度加速 CNN 训练

通过修剪更小的梯度和考虑激活梯度的统计分布，我们提出了一种方法来加速 CNN 训练，这将不会影响准确率。

Aug, 2019

通过半结构化激活稀疏化加速深度神经网络

通过在计算通用矩阵乘法（GEMM）时考虑激活的最终位置，我们设计了一种稀疏训练过程，以诱导可利用的半结构化激活稀疏性，并在图像分类和目标检测任务中对其进行了广泛评估，结果显示在 ImageNet 数据集上，我们的方法在 ResNet18 模型上实现了 1.25 倍的加速，并仅有 1.1% 的最小精度降低；另外，与先进的结构化剪枝方法相结合，得到的模型在延迟和准确性之间取得了很好的平衡，优于仅采用结构化剪枝技术的模型。

Sep, 2023

从头开始学习 N:M 细粒度结构稀疏神经网络

本文研究了一种 N:M 级别的深度神经网络稀疏网络，在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点，解决了传统稀疏网络的效率问题，同时提出了一种 Sparse-refined Straight-through Estimator 方法，解决了传统优化方法下的负面影响。

Feb, 2021

细粒度结构化稀疏感知图像修复

本文提出了一种新的修剪方法，用于在不影响恢复精度的情况下减小图像修复网络的尺寸，该方法根据每个层的不同计算复杂度和性能要求确定 N:M 结构稀疏的修剪比，通过大量的实验结果表明，该方法在超分辨率和去模糊任务中的表现优于以前的修剪方法。

Apr, 2022

活动稀疏性与权重稀疏性相辅相成，用于高效的 RNN 推理

通过对参数进行稀疏化，结合稀疏激活在递归神经网络中的相乘作用，实现了对神经网络计算成本高效率的优化，可以应用于神经形态计算设备上，同时不牺牲任务性能。

Nov, 2023

大规模神经架构的反向传播压缩：结构化激活剪枝

通过在深度神经网络中采用结构化修剪和块稀疏性操作，目前的研究旨在通过减少激活值的内存消耗来减小 GPU 内存需求，从而降低大规模模型训练的要求并解决生态环境问题。

Nov, 2023

激活稀疏性的理论解释：通过平坦极小值和对抗性鲁棒性

基于梯度稀疏性和随机矩阵理论的激活稀疏性，该研究解释了深度模型中激活稀疏性的理论机制以及其在对抗鲁棒性和性能方面的重要性，并提出了几种用于训练和稀疏调整的模块和修改的方法。

Sep, 2023

在 GPU 上实现高效的 DNN 推断的平衡稀疏性

本文提出一种新的 fine-grained sparsity 方法，即平衡稀疏化方法，使得深度学习模型在商用硬件上得以高效地获得准确性和加速，同时利用 GPU 的高并行特性，取得了高达 3.1 倍的实际加速效果。

Nov, 2018

加速稀疏深度神经网络

介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores)，它们利用了 2:4 的稀疏模式，通过两倍的数学吞吐量加速了稠密矩阵单元，并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络，从而在稀疏张量核心上实现精确模型的高效部署。

Apr, 2021