深度学习的稀疏 GPU 内核
介绍了 NVIDIA Ampere GPU 架构中的稀疏张量核心 (Sparse Tensor Cores),它们利用了 2:4 的稀疏模式,通过两倍的数学吞吐量加速了稠密矩阵单元,并提出了一种简单的工作流程以训练满足 2:4 稀疏模式和保持准确性的网络,从而在稀疏张量核心上实现精确模型的高效部署。
Apr, 2021
本文提出了一种算法 - 软件共同设计的剪枝方法,采用 “分块友好” 的稀疏模式来实现现有的密集结构上的延迟加速,旨在解决原先稀疏模型上由于随机分布权重导致计算不规则的问题,在 GPU 笔记本上成功地实现了 1.95 倍速度提升的优化效果。
Aug, 2020
本文主要研究稀疏矩阵操作在机器学习应用中的三个方面,分别是稀疏 - 稠密矩阵乘法(SPMM)、采样稠密 - 稠密矩阵乘法(SDDMM)以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD(ESIMD)SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,与 CUDA 或 SYCL 相比,ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比,并证明了我们稀疏矩阵操作的优越性。
Nov, 2023
本研究通过优化稀疏矩阵算法,使用面向固定大小数据的平台扩展了稀疏图神经网络模型,使用 512 核 TPUv2 Pod 仅用 13 分钟训练,而原始训练需要近一天。
Jun, 2019
本文介绍 TorchSparse,一种高效的基于 GPU 加速的稀疏卷积计算引擎,应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术,实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低,相较当前最优方法 MinkowskiEngine 和 SpConv,分别实现了 1.6 倍和 1.5 倍的整体加速效果。
Apr, 2022
通过将稀疏矩形块进行分割,利用 Tensor Core Units(TCUs)的混合精度模式实现的稀疏矩阵乘法算法 tSparse,可以显著比常用的 cuSPARSE、CUSP、RMerge2、Nsparse、AC-SpGEMM 和 spECK 的方法提高性能。
Sep, 2020
TorchSparse++ 是一个新的 GPU 库,通过高效的稀疏卷积内核生成器和稀疏自动调整器,能够以极低的工程成本实现高性能的稀疏卷积计算,并在推理和训练任务中实现了显著的加速。
Oct, 2023
本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性,通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式(矩阵乘法和卷积)的矩阵乘法和卷积算法的协同设计,提出一组新的 ISA 扩展,实现了这种设计,抓住现今深度神经网络模型的两个主流计算模式的稀疏性,并证明了我们的设想可以显著提高性能。
May, 2021
通过一项全面的基准测试,本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状,旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50%。同时,引入一种新的 CUDA 核心可以优化这些内存操作,最多可以使计算速度提高 1.4 倍,降低能耗 0.85 倍。我们还展示了新核心的广泛意义,以其加速神经网络的推断。
May, 2024