结构稀疏动态稀疏训练
本文提出 Channel-aware dynamic sparse (Chase) 方法:将 unstructured dynamic sparsity 转变为 GPU-friendly channel-level sparsity 加速 inference,通过逐渐去除 biased parameter reallocation across channels,不损失准确率地实现了 1.7 X inference throughput speedup on common GPU devices with ResNet-50 on ImageNet。
May, 2023
本文研究了一种 N:M 级别的深度神经网络稀疏网络,在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点,解决了传统稀疏网络的效率问题,同时提出了一种 Sparse-refined Straight-through Estimator 方法,解决了传统优化方法下的负面影响。
Feb, 2021
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。
Jan, 2021
通过张量近似和结构分解的方法,该研究提出了一种软件框架(TASDER),以更好地支持硬件加速稀疏深度神经网络,并在能耗延迟乘积上平均提升了 83% 至 74%。
Mar, 2024
通过激活稀疏性和动态决定每个令牌的执行专家数量的方法,Dynamic Sparsified Transformer Inference(DSTI)能够显著降低 Transformer 模型的推理成本,而且对准确性几乎没有影响。
Oct, 2023
本文研究 N:M 稀疏性训练的不同方法,并提出了两种新的基于衰减的修剪方法,即 “修剪掩码衰减” 和 “稀疏结构衰减”。研究表明,这些提出的方法在保持与非结构化稀疏性可比的模型精度同时,增加的总训练计算量(FLOPs)相对较小。
Sep, 2022
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文介绍了一个基于 attention mechanism 的迁移学习方法,适用于在训练过程中缺乏丰富人工标注数据的情况下训练 extractive DST 模型,通过两种新颖的输入级 dropout 方法来减轻样本稀疏性的负面影响。我们的实验表明,提出的模型训练策略和架构方法在应对新概念、样本稀疏性等挑战时表现出优越性。
Feb, 2022