SparseByteNN：一种基于细粒度分组稀疏性的新型移动推理加速框架

Oct, 2023

SparseByteNN：一种基于细粒度分组稀疏性的新型移动推理加速框架

SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on Fine-Grained Group Sparsity

Haitao Xu, Songwei Liu, Yuyang Xu, Shuai Wang, Jiashi Li...

TL;DR为了解决网络规模增大的挑战，研究者通过网络剪枝开发了稀疏模型。然而，在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中，我们提出了一种新颖的移动推理加速框架 SparseByteNN，通过利用细粒度的内核稀疏性实现实时执行和高准确性。我们的框架包括两个部分：（a）一种细粒度的内核稀疏模式，其稀疏粒度介于结构化剪枝和非结构化剪枝之间。它为不同操作器设计了多种稀疏模式。结合我们提出的整体网络重新排列策略，该模式同时实现高压缩率和高精度。（b）与稀疏模式共同优化的推理引擎。常理认为，这种理论上的 FLOPs 减少并不能转化为真实世界的效率提升。我们旨在通过引入一族针对 ARM 和 WebAssembly 的高效稀疏内核来纠正这种误解。通过我们对稀疏原语的高效实现，我们展示了 MobileNet-v1 的稀疏版本在效率 - 准确性曲线上胜过性能强大且密集的基线模型。Qualcomm 855 的实验结果表明，对于 30％稀疏的 MobileNet-v1，SparseByteNN 相对于密集版本获得了 1.27 倍的加速，并相对于最先进的稀疏推理引擎 MNN 获得了 1.29 倍的加速，准确性略有下降，下降了 0.224％。SparseByteNN 的源代码将在此 https URL 上提供。

Abstract

To address the challenge of increasing network size, researchers have developed sparse models through network pruning. However, maintaining model accuracy while achieving significant speedups on general computing

sparse models network pruning inference acceleration fine-grained kernel sparsity mobilenet-v1

发现论文，激发创造

快速稀疏卷积神经网络

本文介绍了一种使用稀疏性来代替密集操作的高效神经网络建模方法，通过实现一系列高效的稀疏基本操作，并将其用于 MobileNet v1，MobileNet v2 和 EfficientNet 等体系结构中进行了测试，表明稀疏模型不仅效率更高，而且精度比基准模型更高。

Nov, 2019

面向移动设备实时推理的基于图案的稀疏度图像增强

介绍了一种新的基于模式的稀疏性方法，该方法包括模式和连接度稀疏性，旨在通过权重剪枝同时提高模型准确度和硬件加速性能，并提供了一种针对移动设备的高效 DNN 执行的解决方案。

Jan, 2020

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

PCONV：DNN 权重剪枝中缺失但令人向往的稀疏性，用于移动设备上的实时执行

介绍了新的稀疏度维度 - 粗粒度结构内的细粒度剪枝模式 (PCONV) 方法，通过结构内的细粒度稀疏性和连接性稀疏性提高了精度和计算效率，在实时推理中取得了显著的速度提升，没有准确性损失。

Sep, 2019

在 GPU 上实现高效的 DNN 推断的平衡稀疏性

本文提出一种新的 fine-grained sparsity 方法，即平衡稀疏化方法，使得深度学习模型在商用硬件上得以高效地获得准确性和加速，同时利用 GPU 的高并行特性，取得了高达 3.1 倍的实际加速效果。

Nov, 2018

使用基于模式的权重修剪在移动设备上实现实时深度神经网络执行

该研究提出了一种新的维度 —— 在粗粒度结构内使用细粒度裁剪，以达到在移动设备上高效执行深度神经网络的效果，并通过编译器进行优化，取得了良好的效果。

Jan, 2020

从头开始学习 N:M 细粒度结构稀疏神经网络

本文研究了一种 N:M 级别的深度神经网络稀疏网络，在专门设计的 GPU 上同时具有非结构化细粒度稀疏性和结构化粗粒度稀疏性的优点，解决了传统稀疏网络的效率问题，同时提出了一种 Sparse-refined Straight-through Estimator 方法，解决了传统优化方法下的负面影响。

Feb, 2021

用于快速模型推理的神经网络压缩框架

该论文提出了一个新的神经网络压缩框架 NNCF，它基于当前各种网络压缩方法进行改进，如稀疏化、量化和二值化。这些方法可以加速推理时间，同时保持原有的准确性。NNCF 可作为训练样本或单独的软件包供使用，并且可以无缝地集成到现有的训练代码中。

Feb, 2020

SparseTrain: 利用数据流量稀疏性来实现高效的卷积神经网络训练

本文提出了 SparseTrain 来加速卷积神经网络的训练，该方法通过完全利用稀疏性，主要包括三个方面的创新：激活梯度剪枝算法、稀疏训练数据流和加速器架构。评估结果表明，与原始训练流程相比，SparseTrain 平均可实现约 2.7 倍的加速和 2.2 倍的能量效率提高。

Jul, 2020

TorchSparse: 高效点云推理引擎

本文介绍 TorchSparse，一种高效的基于 GPU 加速的稀疏卷积计算引擎，应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术，实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低，相较当前最优方法 MinkowskiEngine 和 SpConv，分别实现了 1.6 倍和 1.5 倍的整体加速效果。

Apr, 2022