结构稀疏动态稀疏训练

May, 2023

Dynamic Sparse Training with Structured Sparsity

Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou

TL;DR本研究提出了一种基于 DST 方法的 N:M 结构稀疏化学习方案，其具有较高的稀疏度并支持常见的硬件加速方式，在理论和实践中都表现出较好的泛化性能与较低的推理时间。

Abstract

dst methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly s

dst methods sparse neural network structured n:m sparsity generalization performance inference time

发现论文，激发创造

动态稀疏是通道级稀疏的学习器

本文提出 Channel-aware dynamic sparse (Chase) 方法：将 unstructured dynamic sparsity 转变为 GPU-friendly channel-level sparsity 加速 inference，通过逐渐去除 biased parameter reallocation across channels，不损失准确率地实现了 1.7 X inference throughput speedup on common GPU devices with ResNet-50 on ImageNet。

May, 2023

从头开始学习 N:M 细粒度结构稀疏神经网络

本文研究了一种 N:M 级别的深度神经网络稀疏网络，在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点，解决了传统稀疏网络的效率问题，同时提出了一种 Sparse-refined Straight-through Estimator 方法，解决了传统优化方法下的负面影响。

Feb, 2021

自私稀疏循环神经网络训练

本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法，利用非均匀分配细胞门的方法实现更好的正则化，并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能，在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。

Jan, 2021

通过结构化稀疏张量分解对稀疏 DNN 加速进行抽象化

通过张量近似和结构分解的方法，该研究提出了一种软件框架（TASDER），以更好地支持硬件加速稀疏深度神经网络，并在能耗延迟乘积上平均提升了 83% 至 74%。

Mar, 2024

神奇的权重及其搜索方法：如何在动态稀疏训练中进行裁剪

本论文主要研究动态稀疏训练中修剪准则的影响，发现在低密度环境下，最优性能主要取决于最简单的技术：基于大小的修剪。

Jun, 2023

利用动态推理来开发 Transformer 激活稀疏性

通过激活稀疏性和动态决定每个令牌的执行专家数量的方法，Dynamic Sparsified Transformer Inference（DSTI）能够显著降低 Transformer 模型的推理成本，而且对准确性几乎没有影响。

Oct, 2023

带有衰减剪枝掩码的 N:M 结构稀疏化训练配方

本文研究 N:M 稀疏性训练的不同方法，并提出了两种新的基于衰减的修剪方法，即 “修剪掩码衰减” 和 “稀疏结构衰减”。研究表明，这些提出的方法在保持与非结构化稀疏性可比的模型精度同时，增加的总训练计算量（FLOPs）相对较小。

Sep, 2022

基于算法、架构和数据流共同设计的高效稀疏 DNN 训练

提出了一个计算高效的 N:M 稀疏深度神经网络（DNN）训练方案，包括算法、架构和数据流共同设计，并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练，在几种 DNN 模型和数据集上的实验结果表明，在 2:8 稀疏比率下，该方案相对于密集训练可实现平均 1.75 倍的加速，准确度损失平均仅为 0.56%，在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍，能效提高了 1.36~3.58 倍。

Sep, 2023

通过半结构化激活稀疏化加速深度神经网络

通过在计算通用矩阵乘法（GEMM）时考虑激活的最终位置，我们设计了一种稀疏训练过程，以诱导可利用的半结构化激活稀疏性，并在图像分类和目标检测任务中对其进行了广泛评估，结果显示在 ImageNet 数据集上，我们的方法在 ResNet18 模型上实现了 1.25 倍的加速，并仅有 1.1% 的最小精度降低；另外，与先进的结构化剪枝方法相结合，得到的模型在延迟和准确性之间取得了很好的平衡，优于仅采用结构化剪枝技术的模型。

Sep, 2023

使用弱监督和稀疏数据的稳健对话状态跟踪

本文介绍了一个基于 attention mechanism 的迁移学习方法，适用于在训练过程中缺乏丰富人工标注数据的情况下训练 extractive DST 模型，通过两种新颖的输入级 dropout 方法来减轻样本稀疏性的负面影响。我们的实验表明，提出的模型训练策略和架构方法在应对新概念、样本稀疏性等挑战时表现出优越性。

Feb, 2022