Nov, 2023

英特尔 Max 系列 GPU 上深度学习稀疏矩阵核的性能优化

TL;DR本文主要研究稀疏矩阵操作在机器学习应用中的三个方面,分别是稀疏 - 稠密矩阵乘法(SPMM)、采样稠密 - 稠密矩阵乘法(SDDMM)以及 SDDMM 与 SPMM 的组合。我们利用 Intel oneAPI 的显式 SIMD(ESIMD)SYCL 扩展 API 对 SPMM、SDDMM 和 FusedMM 操作进行了优化,与 CUDA 或 SYCL 相比,ESIMD API 能够编写明确向量化的内核代码。使用 ESIMD API 实现的稀疏矩阵算法在目标 Intel 数据中心 GPU 的性能接近峰值。我们将性能结果与 Intel 的 oneMKL 库在 Intel GPU 上和最近 NVIDIA V100 GPU 上的一个 CUDA 实现进行了对比,并证明了我们稀疏矩阵操作的优越性。