Dec, 2023

ZeroQuant (4+2): 通过一种基于 FP6 的新策略重新定义 LLMs 量化,用于不同的生成任务

TL;DR本研究审查了大型语言模型中的 4 位量化方法,重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现 INT4 量化在其中显著性能不佳。然而,转向高精度格式如 FP6 却面临挑战,因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用 FP6 量化,codestar-15B 模型在代码生成方面表现与其 FP16 对等,对于较小的模型如 406M,与摘要生成的基准模型非常接近,而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能,我们提出了一种用于 FP6 的新颖 4+2 设计,以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计,FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。