Oct, 2023

VENOM:一种向量化的N:M格式,释放稀疏张量核心的能量

TL;DR逐渐成功和扩大规模的深度学习模型对计算效率和功耗提出了更高的要求。稀疏化能够导致模型更小、计算效率更高,并且加速硬件已经得到应用。本文提出了一种新的格式V:N:M,用于在NVIDIA的Sparse Tensor Cores上执行任意N:M比例的稀疏化计算,并通过高性能稀疏库Spatha实现了高达37倍的加速,在现代transformers中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。