PyTorch 中高效稀疏的 STen
逐渐成功和扩大规模的深度学习模型对计算效率和功耗提出了更高的要求。稀疏化能够导致模型更小、计算效率更高,并且加速硬件已经得到应用。本文提出了一种新的格式 V:N:M,用于在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算,并通过高性能稀疏库 Spatha 实现了高达 37 倍的加速,在现代 transformers 中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。
Oct, 2023
提出了 SparseTIR,一种为深度学习工作负载提供可组合格式和可组合转换的稀疏张量编译抽象。SparseTIR 对于单一操作符可以比供应商库获得 1.20-2.34 倍到 7.45 倍的性能加速。
Jul, 2022
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于 Transformer-based 语言模型,我们的稀疏加速器在处理各种 GEMM 形状时,比现有的稀疏库快一个数量级,在 Xeon 上具有高效的性能。
Jun, 2023
本研究提出了一种基于 DST 方法的 N:M 结构稀疏化学习方案,其具有较高的稀疏度并支持常见的硬件加速方式,在理论和实践中都表现出较好的泛化性能与较低的推理时间。
May, 2023
本文介绍 TorchSparse,一种高效的基于 GPU 加速的稀疏卷积计算引擎,应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术,实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低,相较当前最优方法 MinkowskiEngine 和 SpConv,分别实现了 1.6 倍和 1.5 倍的整体加速效果。
Apr, 2022
本论文演示了一种使用稀疏性和数据流的端到端训练流程,用于对一个大型语言模型(13 亿 GPT)进行高效训练,能够成功训练出与稠密模型相同质量的结果,并获得 4.5 倍于基线的端到端加速。
Apr, 2023
本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性,通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式(矩阵乘法和卷积)的矩阵乘法和卷积算法的协同设计,提出一组新的 ISA 扩展,实现了这种设计,抓住现今深度神经网络模型的两个主流计算模式的稀疏性,并证明了我们的设想可以显著提高性能。
May, 2021
本文介绍了一种基于 unstructured sparsity 的 code generator - SparseRT,通过对于 1x1 convolutions 以及 fully connected layers 进行计算,该方法相对于 equivalent dense computation 速度提升了 3.4x 至 5.4x,同时处理 ResNet-50 的 sparse 3x3 convolutions 取得了 5x 的速度提升,能够有效地加速 GPU 上的深度学习操作。
Aug, 2020
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
硬件专业化的趋势导致在处理稀疏工作负载时越来越多地使用自定义数据格式,而现有的稀疏张量编程模型和编译器对自定义格式的支持很少或没有。为了克服这个缺陷,我们提出了 UniSparse,它是一种提供统一抽象的中间语言,用于表示和自定义稀疏格式。与现有的基于属性的框架不同,UniSparse 将稀疏张量的逻辑表示(即数据结构)与其底层内存布局解耦,从而实现了两者的自定义。通过实验,我们证明了我们的方法在多种不同的硬件目标上运行常用的稀疏线性代数操作与专门格式的有效性,包括 Intel CPU、NVIDIA GPU、AMD Xilinx FPGA 和模拟的内存中处理(PIM)设备。
Mar, 2024