Jul, 2023

ZeroQuant-FP: 使用浮点格式的 LLM 后训练 W4A8 量化的飞跃

TL;DR使用浮点量化在大型语言模型中表现出色,尤其是 FP8 和 FP4 的浮点数,在模型参数超过十亿时性能优势更加明显。对于权重量化来说,FP4 与 INT4 相比表现出可比、甚至更好的性能,简化了在支持 FP 的硬件上部署。对于通过权重和激活之间差异引起的精度对齐开销,我们提出了两个权重量化的缩放约束条件,对性能的影响微乎其微,与标准的 W4A8 模型相比。此外,我们还结合了低秩补偿(LoRC)策略来增强量化方法,特别适用于较小的模型。研究结果强调了浮点量化在大型语言模型中的巨大潜力,为资源受限环境中的高效部署铺平了道路。