May, 2024

提升推理速度:蝶式稀疏矩阵乘法的高效 GPU 内存管理

TL;DR通过一项全面的基准测试,本研究评估了目前 GPU 上用于蝶形稀疏矩阵乘法算法的现状,旨在为用户提供一个简单的工具来选择最佳算法实现。结果显示现有实现在内存重写操作上耗费了总运行时间的高达 50%。同时,引入一种新的 CUDA 核心可以优化这些内存操作,最多可以使计算速度提高 1.4 倍,降低能耗 0.85 倍。我们还展示了新核心的广泛意义,以其加速神经网络的推断。