SpArch: 稀疏矩阵乘法的高效架构
本文提出了两种新算法以在 GPU 上实现稀疏矩阵与密集矩阵相乘,主要关注延迟隐藏、负载平衡和内存访问,实验分析表明该算法在处理实际数据集时获得了 4.1 倍的速度提升和 31.7%的平均速度提升。
Mar, 2018
通过使用决策树和深度强化学习技术,本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案,进一步对比了传统的启发式方法,结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。
Jun, 2024
本文介绍了 GE-SpMM 方法,该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作,并且在真实的图像数据集上实验表明,GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速,且在 GNN 模型上可以获得高达 3.67 倍的加速效果。
Jul, 2020
通过将稀疏矩形块进行分割,利用 Tensor Core Units(TCUs)的混合精度模式实现的稀疏矩阵乘法算法 tSparse,可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。
Sep, 2020
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于 Transformer-based 语言模型,我们的稀疏加速器在处理各种 GEMM 形状时,比现有的稀疏库快一个数量级,在 Xeon 上具有高效的性能。
Jun, 2023
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023
本文提出一种基于稀疏矩阵的计算优化方法,通过对深度学习应用中的稀疏矩阵进行深入研究,开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核,实现了神经网络模型的加速和内存节省。
Jun, 2020
通过在计算通用矩阵乘法(GEMM)时考虑激活的最终位置,我们设计了一种稀疏训练过程,以诱导可利用的半结构化激活稀疏性,并在图像分类和目标检测任务中对其进行了广泛评估,结果显示在 ImageNet 数据集上,我们的方法在 ResNet18 模型上实现了 1.25 倍的加速,并仅有 1.1% 的最小精度降低;另外,与先进的结构化剪枝方法相结合,得到的模型在延迟和准确性之间取得了很好的平衡,优于仅采用结构化剪枝技术的模型。
Sep, 2023
本文主要研究稀疏矩阵操作在机器学习应用中的三个方面,分别是稀疏 - 稠密矩阵乘法(SPMM)、采样稠密 - 稠密矩阵乘法(SDDMM)以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD(ESIMD)SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,与 CUDA 或 SYCL 相比,ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比,并证明了我们稀疏矩阵操作的优越性。
Nov, 2023