Oct, 2023

双粒度量化:LLM的高效细粒度量化

TL;DR该论文介绍了一种称为Dual Grained Quantization (DGQ)的新型量化技术,通过将细粒度的INT4权重解量化为粗粒度的INT8表示,并使用INT8内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实验结果表明,DGQ在各种LLM架构和广泛的任务中始终优于之前的方法,通过高效的CUTLASS内核,实现1.12倍的内存减少和3.24倍的速度增益,从而实现了A8W4 LLM在实际应用中的高效部署。