Dec, 2023

ZeroQuant(4+2): 通过一种基于FP6的新策略重新定义LLMs量化,用于不同的生成任务

TL;DR本研究审查了大型语言模型中的4位量化方法,重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现INT4量化在其中显著性能不佳。然而,转向高精度格式如FP6却面临挑战,因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用FP6量化,codestar-15B模型在代码生成方面表现与其FP16对等,对于较小的模型如406M,与摘要生成的基准模型非常接近,而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能,我们提出了一种用于FP6的新颖4+2设计,以达到与最先进的INT4精细的量化相似的时延。通过我们的设计,FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。