Oct, 2023

双粒度量化:LLM 的高效细粒度量化

TL;DR该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术,通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示,并使用 INT8 内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实验结果表明,DGQ 在各种 LLM 架构和广泛的任务中始终优于之前的方法,通过高效的 CUTLASS 内核,实现 1.12 倍的内存减少和 3.24 倍的速度增益,从而实现了 A8W4 LLM 在实际应用中的高效部署。