SpArch: 稀疏矩阵乘法的高效架构

Feb, 2020

SpArch: Efficient Architecture for Sparse Matrix Multiplication

Zhekai Zhang, Hanrui Wang, Song Han, William J. Dally

TL;DR本文提出了一种有效的稀疏矩阵乘法加速架构 SpArch，它联合优化了输入和输出矩阵的数据局部性。通过设计高度并行化的基于流的合并器和一种压缩矩阵表示，该架构使总 DRAM 访问次数减少了 2.8x，平均速度提高了 4x - 1285x，节约了 6x-435x 能源。

Abstract

Generalized Sparse Matrix-Matrix Multiplication (SpGEMM) is a ubiquitous task in various engineering and scientific applications. However, inner product based SpGENN introduces redundant input fetches for mismatched nonzero operands, while outer product based approach suffers from poor output locality due to numerous partial product matrices. Inefficiency in

sparse matrix multiplication data locality accelerator architecture dram access partial matrices

发现论文，激发创造

GPU 上的稀疏矩阵乘法设计原则

本文提出了两种新算法以在 GPU 上实现稀疏矩阵与密集矩阵相乘，主要关注延迟隐藏、负载平衡和内存访问，实验分析表明该算法在处理实际数据集时获得了 4.1 倍的速度提升和 31.7％的平均速度提升。

Mar, 2018

Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择

通过使用决策树和深度强化学习技术，本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案，进一步对比了传统的启发式方法，结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。

Jun, 2024

GE-SpMM: 用于图神经网络的 GPU 通用稀疏矩阵乘法

本文介绍了 GE-SpMM 方法，该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作，并且在真实的图像数据集上实验表明，GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速，且在 GNN 模型上可以获得高达 3.67 倍的加速效果。

Jul, 2020

利用 GPU 张量核加速稀疏矩阵 - 矩阵乘法

通过将稀疏矩形块进行分割，利用 Tensor Core Units（TCUs）的混合精度模式实现的稀疏矩阵乘法算法 tSparse，可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。

Sep, 2020

应急稀疏性的掩码矩阵乘法

利用动态代码查找和稀疏性映射等方法，构建了一个矢量化和并行矩阵乘法系统，针对人工智能工作负载中的稀疏数据表示进行了优化，从而显著提升了性能。

Feb, 2024

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

基于算法、架构和数据流共同设计的高效稀疏 DNN 训练

提出了一个计算高效的 N:M 稀疏深度神经网络（DNN）训练方案，包括算法、架构和数据流共同设计，并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练，在几种 DNN 模型和数据集上的实验结果表明，在 2:8 稀疏比率下，该方案相对于密集训练可实现平均 1.75 倍的加速，准确度损失平均仅为 0.56%，在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍，能效提高了 1.36~3.58 倍。

Sep, 2023

深度学习的稀疏 GPU 内核

本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Jun, 2020

通过半结构化激活稀疏化加速深度神经网络

通过在计算通用矩阵乘法（GEMM）时考虑激活的最终位置，我们设计了一种稀疏训练过程，以诱导可利用的半结构化激活稀疏性，并在图像分类和目标检测任务中对其进行了广泛评估，结果显示在 ImageNet 数据集上，我们的方法在 ResNet18 模型上实现了 1.25 倍的加速，并仅有 1.1% 的最小精度降低；另外，与先进的结构化剪枝方法相结合，得到的模型在延迟和准确性之间取得了很好的平衡，优于仅采用结构化剪枝技术的模型。

Sep, 2023

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

本文主要研究稀疏矩阵操作在机器学习应用中的三个方面，分别是稀疏 - 稠密矩阵乘法（SPMM）、采样稠密 - 稠密矩阵乘法（SDDMM）以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD（ESIMD）SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化，与 CUDA 或 SYCL 相比，ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比，并证明了我们稀疏矩阵操作的优越性。

Nov, 2023