ZeroQuant(4+2): 通过一种基于FP6的新策略重新定义LLMs量化，用于不同的生成任务

Dec, 2023

ZeroQuant(4+2): 通过一种基于FP6的新策略重新定义LLMs量化，用于不同的生成任务

ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Xiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen...

TL;DR本研究审查了大型语言模型中的4位量化方法，重点关注GPTQ在零样本任务中的过拟合问题和限制。我们扩展了任务范围，涵盖了生成类别，如代码生成和抽象概括，发现INT4量化在其中显著性能不佳。然而，转向高精度格式如FP6却面临挑战，因为现有AI硬件上缺乏复杂的集成和系统加速策略导致性能较差，常被忽视。实验结果显示，FP6，即便采用粗粒度的量化方案，也能在各种算法和任务上表现出色，展示了它在准确性和多功能性方面的优势。值得注意的是，使用FP6量化，codestar-15B模型在代码生成方面表现与其FP16对等，对于较小的模型如406M，与摘要生成的基准模型非常接近，而INT4无法达到这种性能。为了更好适应各种AI硬件并实现最佳系统性能，我们提出了一种用于FP6的新颖4+2设计，以达到与最先进的INT4精细的量化相似的时延。通过我们的设计，FP6可以成为当前LLMs中使用的4位量化方法的有希望的解决方案。

Abstract

This study examines 4-bit quantization methods like GPTQ in large language models (LLMs), highlighting GPTQ's overfitting and limited enhancement in zero-shot tasks. While prior works merely focusing on zero-shot