ICLROct, 2022

GPTQ: 针对生成式预训练变换器的准确后训练量化

TL;DR本研究提出了 GPTQ 一种新的一次性量化方法,可以在 4 个 GPU 小时内将 GPT 模型的参数数量降至 1750 亿,每个权重只需使用 3 到 4 个比特位即可恢复几乎与未压缩基线相同的准确性,在单个 GPU 内执行 1750 亿参数模型,快于使用 FP16 格式的 GPU,且可提供 3.25 倍至 4.5 倍的推理加速度。