Feb, 2024

GPTVQ: LLM 量化的维度福祉

TL;DR在这项研究中,我们展示了通过增加量化维度可以显著改善神经网络量化的大小和准确性之间的权衡。我们提出了 GPTVQ 方法,一种新的快速方法,用于对大型语言模型(LLMs)进行训练后的向量量化(VQ),并在多列的量化和未量化权重更新之间交错使用每层输出重建 MSE 的 Hessian 信息。通过使用数据感知的 EM 算法的高效版本初始化码本,然后使用整数量化和基于 SVD 的压缩来进行进一步压缩。GPTVQ 在诸如 Llama-v2 和 Mistral 之类的各种 LLMs 上建立了新的最先进的大小与准确性权衡状态。此外,我们的方法高效:在单个 H100 上处理 Llamav2-70B 模型需要 3 到 11 个小时,具体取决于量化设置。最后,通过对移动 CPU 上的 VQ 解压缩进行设备上的计时,我们显示 VQ 相比于使用 4 位整数格式可以提供改进的延迟。