Oct, 2023

E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理

TL;DR传统修剪方法在大型语言模型中的使用具有挑战性,因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计,即 E-Sparse,以提高大型语言模型的 N:M 稀疏性准确性,并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM,并在 NVIDIA Ampere GPU 上运行。对 LLaMA 系列和 OPT 模型进行的广泛实验表明,E-Sparse 可以显著加速模型推理(高达 1.53 倍),并实现显著的内存节省(高达 43.52%),在可接受的准确性损失范围内。