BriefGPT.xyz
Sep, 2024
ELSA:利用层级 N:M 稀疏性加速视觉变换器
ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration
HTML
PDF
Ning-Chi Huang, Chi-Chih Chang, Wei-Cheng Lin, Endri Taka, Diana Marculescu...
TL;DR
本研究针对视觉变换器中的层级 N:M 稀疏性配置的不足,提出了 ELSA 方法,旨在实现各层自定义的稀疏配置。这种方法通过平衡少量的精度损失,实现了在加速器上显著的内存与推理时间减少,Swim-B 和 DeiT-B 模型的 FLOPs 降低了 2.9 倍。
Abstract
$N{:}M$ sparsity is an emerging
Model Compression
method supported by more and more
Accelerators
to speed up sparse matrix multiplication in deep neural networks. Most existing $N{:}M$ sparsity methods compress n
→