提升推理速度：蝶式稀疏矩阵乘法的高效 GPU 内存管理

May, 2024

提升推理速度：蝶式稀疏矩阵乘法的高效 GPU 内存管理

Make Inference Faster: Efficient GPU Memory Management for Butterfly Sparse Matrix Multiplication

Antoine Gonon, Léon Zheng, Pascal Carrivain, Quoc-Tung Le

TL;DR通过一项全面的基准测试，本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状，旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50％。同时，引入一种新的 CUDA 核心可以优化这些内存操作，最多可以使计算速度提高 1.4 倍，降低能耗 0.85 倍。我们还展示了新核心的广泛意义，以其加速神经网络的推断。

Abstract

This paper is the first to assess the state of existing sparse matrix multiplication algorithms on gpu for the butterfly structure, a promising form of sparsity. This is achieved through a comprehensive benchmark

sparse matrix multiplication gpu butterfly structure memory rewriting operations cuda kernel

发现论文，激发创造

深度学习的稀疏 GPU 内核

本文提出一种基于稀疏矩阵的计算优化方法，通过对深度学习应用中的稀疏矩阵进行深入研究，开发出可用于稀疏矩阵与密集矩阵乘法和采样密集 - 密集矩阵乘法的高性能 GPU 核，实现了神经网络模型的加速和内存节省。

Jun, 2020

像素蝴蝶：稀疏训练神经网络模型的简单高效方法

该研究提出了一种名为 Pixelated Butterfly 的稀疏模型训练方法，通过优化连续超集上的蝶式矩阵，采用简单的蝶式块和低秩矩阵稀疏化网络层，使训练速度提高 3 倍，并在 ImageNet 分类和 WikiText-103 语言建模任务中，使稀疏模型的训练速度比密集的 MLP-Mixer、Vision Transformer 和 GPT-2 medium 提高了 2.5 倍，而且精确度并未下降

Nov, 2021

TorchSparse++：基于 GPU 的稀疏卷积高效训练和推断框架

TorchSparse++ 是一个新的 GPU 库，通过高效的稀疏卷积内核生成器和稀疏自动调整器，能够以极低的工程成本实现高性能的稀疏卷积计算，并在推理和训练任务中实现了显著的加速。

Oct, 2023

GPU 上的稀疏矩阵乘法设计原则

本文提出了两种新算法以在 GPU 上实现稀疏矩阵与密集矩阵相乘，主要关注延迟隐藏、负载平衡和内存访问，实验分析表明该算法在处理实际数据集时获得了 4.1 倍的速度提升和 31.7％的平均速度提升。

Mar, 2018

一款高效稀疏推断软件加速器，用于基于转换器的语言模型在 CPU 上

本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈，可以将稀疏加速器应用于 Transformer-based 语言模型，我们的稀疏加速器在处理各种 GEMM 形状时，比现有的稀疏库快一个数量级，在 Xeon 上具有高效的性能。

Jun, 2023

利用蝴蝶分解减少 IPU 的内存需求

高性能计算从硬件平台的不断改进中受益，在保持合理功耗的同时提供更多的处理能力。智能处理单元（IPU）是一种新型的大规模并行处理器，旨在加速具有大量处理核心和高速内存组件的并行计算。本文研究了如何在 IPU 上实现蝶形结构，并研究了它们与 GPU 的行为和性能的比较。实验结果表明，这些方法可以提供 98.5% 的压缩比，减少对内存的极度需求。在蝶形和像素化蝶形方面，IPU 的实现可以获得 1.3 倍和 1.6 倍的性能改进。我们还在 CIFAR10 等实际数据集上实现了 1.62 倍的训练时间加速。

Sep, 2023

TorchSparse: 高效点云推理引擎

本文介绍 TorchSparse，一种高效的基于 GPU 加速的稀疏卷积计算引擎，应用于 AR/VR、自动驾驶等方面。通过采用自适应矩阵乘法分组技术和集成向量化、量化及融合的本地化优化存储访问技术，实现了 1.4-1.5 倍的速度提升和 2.7 倍的内存移动代价降低，相较当前最优方法 MinkowskiEngine 和 SpConv，分别实现了 1.6 倍和 1.5 倍的整体加速效果。

Apr, 2022

在 GPU 上并行化大规模矩阵分解以提高速度和降低成本

本论文介绍了 cuMF，一种基于 CUDA 的矩阵分解库，利用 GPU 技术，采用内存优化的交替最小二乘法（ALS）方法解决非常大规模的 MF 问题，并利用各种技术在单个或多个 GPU 上最大化其性能。与分布式 CPU 解决方案相比，cuMF 仅使用具有 4 个 Nvidia GPU 卡的单个机器就能够快 6-10 倍，成本效益高达 33-100 倍。

Mar, 2016

Flash-LLM：使用非结构稀疏性实现成本效益高且高效的大型生成模型推断

Flash-LLM 是一种针对大型生成模型的低成本高效大规模推断框架，通过优化稀疏矩阵乘法，在高性能 Tensor Cores 上实现了显著的性能提升。

Sep, 2023

GE-SpMM: 用于图神经网络的 GPU 通用稀疏矩阵乘法

本文介绍了 GE-SpMM 方法，该方法可以在 GPU 上进行支持高通用性的稀疏矩阵加速操作，并且在真实的图像数据集上实验表明，GE-SpMM 可以在 Nvidia cuSPARSE 和 GraphBLAST 上实现高达 1.41 倍和 1.81 倍的加速，且在 GNN 模型上可以获得高达 3.67 倍的加速效果。

Jul, 2020