Jun, 2024

QQQ:大型语言模型的高质量四位量化

TL;DRQQQ 是一种基于四位权重和八位激活的优质量化方法,通过自适应平滑和基于 Hessian 的补偿显著提高了量化模型的性能,并通过精心设计的 W4A8 GEMM 核心增加了推理速度。与现有的最新 LLM 量化方法相当的性能,显著加速推理,与 FP16、W8A8 和 W4A16 相比,速度提升分别达到了 2.24 倍、2.10 倍和 1.25 倍。