Jun, 2024
QQQ:大型语言模型的高质量四位量化
QQQ: Quality Quattuor-Bit Quantization for Large Language Models
TL;DRQQQ是一种基于四位权重和八位激活的优质量化方法,通过自适应平滑和基于Hessian的补偿显著提高了量化模型的性能,并通过精心设计的W4A8 GEMM核心增加了推理速度。与现有的最新LLM量化方法相当的性能,显著加速推理,与FP16、W8A8和W4A16相比,速度提升分别达到了2.24倍、2.10倍和1.25倍。