利用 GPU 张量核加速稀疏矩阵 - 矩阵乘法

Sep, 2020

利用 GPU 张量核加速稀疏矩阵 - 矩阵乘法

Accelerating Sparse Matrix-Matrix Multiplication with GPU Tensor Cores

Orestis Zachariadis, Nitin Satpute, Juan Gómez-Luna, Joaquín Olivares

TL;DR通过将稀疏矩形块进行分割，利用 Tensor Core Units（TCUs）的混合精度模式实现的稀疏矩阵乘法算法 tSparse，可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。

Abstract

sparse general matrix-matrix multiplication (spGEMM) is an essential component in many scientific and data analytics applications. However, the sparsity pattern of the input matrices and the interaction of their patterns make spGEMM challenging. Modern GPUs include →

sparse general matrix-matrix multiplication tensor core units mixed precision mode tiling approach performance improvement

发现论文，激发创造

GE-SpMM: 用于图神经网络的 GPU 通用稀疏矩阵乘法

本文介绍了 GE-SpMM 方法，该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作，并且在真实的图像数据集上实验表明，GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速，且在 GNN 模型上可以获得高达 3.67 倍的加速效果。

Jul, 2020

GPU 上的稀疏矩阵乘法设计原则

本文提出了两种新算法以在 GPU 上实现稀疏矩阵与密集矩阵相乘，主要关注延迟隐藏、负载平衡和内存访问，实验分析表明该算法在处理实际数据集时获得了 4.1 倍的速度提升和 31.7％的平均速度提升。

Mar, 2018

Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择

通过使用决策树和深度强化学习技术，本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案，进一步对比了传统的启发式方法，结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 28 倍的性能提升。

Jun, 2024

深度学习的稀疏 GPU 内核

本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Jun, 2020

SpArch: 稀疏矩阵乘法的高效架构

本文提出了一种有效的稀疏矩阵乘法加速架构 SpArch，它联合优化了输入和输出矩阵的数据局部性。通过设计高度并行化的基于流的合并器和一种压缩矩阵表示，该架构使总 DRAM 访问次数减少了 2.8x，平均速度提高了 4x - 1285x，节约了 6x-435x 能源。

Feb, 2020

加速稀疏深度神经网络

介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores)，它们利用了 2:4 的稀疏模式，通过两倍的数学吞吐量加速了稠密矩阵单元，并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络，从而在稀疏张量核心上实现精确模型的高效部署。

Apr, 2021

NVIDIA Tensor Core 可编程性、性能和精度

本文介绍了 NVIDIA Volta GPU 微架构中一种特殊的处理器 Tensor Core，它能够在每个时钟周期内对 4x4 矩阵执行一个矩阵乘积累加操作，经过测试，我们发现 NVIDIA Tensor Core 在 Tesla V100 GPU 上能够以混合精度提供 83 Tflops/s 的处理速度，使得 HPC 应用的矩阵乘法能够获得显著的性能提升。

Mar, 2018

Tensor Cores 上高效的量化稀疏矩阵操作

提出了 Magicube，这是一个适用于低精度整数的高性能稀疏矩阵库，支持深度学习中的两个主要稀疏操作（SpMM 和 SDDMM）在 Tensor Cores 上的混合精度加速，实验结果显示，相对于供应商优化库，Magicube 平均提高了 1.44 倍（最高提高到 2.37 倍），而且即使精度相当，相对于同类技术，性能也提高了 1.43 倍。

Sep, 2022

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

本文主要研究稀疏矩阵操作在机器学习应用中的三个方面，分别是稀疏 - 稠密矩阵乘法（SPMM）、采样稠密 - 稠密矩阵乘法（SDDMM）以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD（ESIMD）SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化，与 CUDA 或 SYCL 相比，ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比，并证明了我们稀疏矩阵操作的优越性。

Nov, 2023

TorchSparse++：基于 GPU 的稀疏卷积高效训练和推断框架

TorchSparse++ 是一个新的 GPU 库，通过高效的稀疏卷积内核生成器和稀疏自动调整器，能够以极低的工程成本实现高性能的稀疏卷积计算，并在推理和训练任务中实现了显著的加速。

Oct, 2023