Oct, 2023

VENOM:一种向量化的 N:M 格式,释放稀疏张量核心的能量

TL;DR逐渐成功和扩大规模的深度学习模型对计算效率和功耗提出了更高的要求。稀疏化能够导致模型更小、计算效率更高,并且加速硬件已经得到应用。本文提出了一种新的格式 V:N:M,用于在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算,并通过高性能稀疏库 Spatha 实现了高达 37 倍的加速,在现代 transformers 中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。