深度学习的稀疏 GPU 内核

Jun, 2020

Sparse GPU Kernels for Deep Learning

Trevor Gale, Matei Zaharia, Cliff Young, Erich Elsen

TL;DR本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Abstract

Scientific workloads have traditionally exploited high levels of sparsity to accelerate computation and reduce memory requirements. While deep neural networks can be made sparse, achieving practical speedups on GPUs is difficult because these applications have relatively moderate levels of sparsity that are not sufficient for existing sparse kernels to outpe

sparse matrices deep learning gpu kernels neural networks speedup

发现论文，激发创造

加速稀疏深度神经网络

介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores)，它们利用了 2:4 的稀疏模式，通过两倍的数学吞吐量加速了稠密矩阵单元，并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络，从而在稀疏张量核心上实现精确模型的高效部署。

Apr, 2021

通过划分稀疏矩阵块提高无硬件支持的稀疏 DNN 模型加速

本文提出了一种算法 - 软件共同设计的剪枝方法，采用 “分块友好” 的稀疏模式来实现现有的密集结构上的延迟加速，旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题，在 GPU 笔记本上成功地实现了 1.95 倍速度提升的优化效果。

Aug, 2020

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

本文主要研究稀疏矩阵操作在机器学习应用中的三个方面，分别是稀疏 - 稠密矩阵乘法（SPMM）、采样稠密 - 稠密矩阵乘法（SDDMM）以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD（ESIMD）SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化，与 CUDA 或 SYCL 相比，ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比，并证明了我们稀疏矩阵操作的优越性。

Nov, 2023

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019

应急稀疏性的掩码矩阵乘法

利用动态代码查找和稀疏性映射等方法，构建了一个矢量化和并行矩阵乘法系统，针对人工智能工作负载中的稀疏数据表示进行了优化，从而显著提升了性能。

Feb, 2024

TorchSparse: 高效点云推理引擎

本文介绍 TorchSparse，一种高效的基于 GPU 加速的稀疏卷积计算引擎，应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术，实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低，相较当前最优方法 MinkowskiEngine 和 SpConv，分别实现了 1.6 倍和 1.5 倍的整体加速效果。

Apr, 2022

利用 GPU 张量核加速稀疏矩阵 - 矩阵乘法

通过将稀疏矩形块进行分割，利用 Tensor Core Units（TCUs）的混合精度模式实现的稀疏矩阵乘法算法 tSparse，可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。

Sep, 2020

TorchSparse++：基于 GPU 的稀疏卷积高效训练和推断框架

TorchSparse++ 是一个新的 GPU 库，通过高效的稀疏卷积内核生成器和稀疏自动调整器，能够以极低的工程成本实现高性能的稀疏卷积计算，并在推理和训练任务中实现了显著的加速。

Oct, 2023

双侧稀疏张量核

本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性，通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式（矩阵乘法和卷积）的矩阵乘法和卷积算法的协同设计，提出一组新的 ISA 扩展，实现了这种设计，抓住现今深度神经网络模型的两个主流计算模式的稀疏性，并证明了我们的设想可以显著提高性能。

May, 2021

提升推理速度：蝶式稀疏矩阵乘法的高效 GPU 内存管理

通过一项全面的基准测试，本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状，旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50％。同时，引入一种新的 CUDA 核心可以优化这些内存操作，最多可以使计算速度提高 1.4 倍，降低能耗 0.85 倍。我们还展示了新核心的广泛意义，以其加速神经网络的推断。

May, 2024