英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

Nov, 2023

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel Max Series GPU

Mohammad Zubair, Christoph Bauinger

TL;DR本文主要研究稀疏矩阵操作在机器学习应用中的三个方面，分别是稀疏 - 稠密矩阵乘法（SPMM）、采样稠密 - 稠密矩阵乘法（SDDMM）以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD（ESIMD）SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化，与 CUDA 或 SYCL 相比，ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比，并证明了我们稀疏矩阵操作的优越性。

Abstract

In this paper, we focus on three sparse matrix operations that are relevant for machine learning applications, namely, the sparse-dense matrix multiplication (SPMM), the →

sparse matrix machine learning applications sparse-dense matrix multiplication sampled dense-dense matrix multiplication fusedmm

发现论文，激发创造

GE-SpMM: 用于图神经网络的 GPU 通用稀疏矩阵乘法

本文介绍了 GE-SpMM 方法，该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作，并且在真实的图像数据集上实验表明，GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速，且在 GNN 模型上可以获得高达 3.67 倍的加速效果。

Jul, 2020

GPU 上的稀疏矩阵乘法设计原则

本文提出了两种新算法以在 GPU 上实现稀疏矩阵与密集矩阵相乘，主要关注延迟隐藏、负载平衡和内存访问，实验分析表明该算法在处理实际数据集时获得了 4.1 倍的速度提升和 31.7％的平均速度提升。

Mar, 2018

深度学习的稀疏 GPU 内核

本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Jun, 2020

Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择

通过使用决策树和深度强化学习技术，本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案，进一步对比了传统的启发式方法，结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。

Jun, 2024

利用 GPU 张量核加速稀疏矩阵 - 矩阵乘法

通过将稀疏矩形块进行分割，利用 Tensor Core Units（TCUs）的混合精度模式实现的稀疏矩阵乘法算法 tSparse，可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。

Sep, 2020

应急稀疏性的掩码矩阵乘法

利用动态代码查找和稀疏性映射等方法，构建了一个矢量化和并行矩阵乘法系统，针对人工智能工作负载中的稀疏数据表示进行了优化，从而显著提升了性能。

Feb, 2024

Intel 数据中心 GPU 上的完全融合多层感知器

SYCL 实现的多层感知器在 Intel 数据中心 GPU 上表现出较高的性能和算术强度。

Mar, 2024

基于编译器技术优化深度学习 GEMM

本文介绍了一种名为 NGEMM 的基于编译器的 GEMM 实现方法，用于加速低精度 DNN 的训练和推理。与 MKL 等库相比，NGEMM 的性能表现更优，平均速度提升了 1.86 倍。

Oct, 2019

高效适数值计算的开源框架

我们提出了一个通用的开源框架，旨在促进高效、个性化的数值矩阵乘法运算（MMM）。该框架提供了两个主要贡献：第一，一个经过优化的、自动化的算术数据通路生成流水线，可以实现高度定制化的脉动式 MMM 核心；第二，生成的核心能够无缝集成到用户代码中，无论使用的是哪种编程语言，而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果，这些工作负载展示了多种数字需求，如人工智能推理和海面高度计算。在人工智能推理方面，我们考虑了一系列最先进的神经网络模型，包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11，结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗，其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时，IEEE754-32 的能耗降低了 3.3 倍，Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时，与传统的浮点数单元（FPUs）所实现的准确率相当。在 SSH 计算方面，我们的方法通过使用双精度字实现了完全可重现的结果，超过了传统双精度和四倍精度浮点数运算器（FPUs）的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128，最低提高了 5 倍和 27 倍的 SSH 计算准确性，从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。

May, 2024

SpArch: 稀疏矩阵乘法的高效架构

本文提出了一种有效的稀疏矩阵乘法加速架构 SpArch，它联合优化了输入和输出矩阵的数据局部性。通过设计高度并行化的基于流的合并器和一种压缩矩阵表示，该架构使总 DRAM 访问次数减少了 2.8x，平均速度提高了 4x - 1285x，节约了 6x-435x 能源。

Feb, 2020