Oct, 2022
GPTQ: 针对生成式预训练变换器的准确后训练量化
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers
TL;DR本研究提出了GPTQ一种新的一次性量化方法,可以在4个GPU小时内将GPT模型的参数数量降至1750亿,每个权重只需使用3到4个比特位即可恢复几乎与未压缩基线相同的准确性,在单个GPU内执行1750亿参数模型,快于使用FP16格式的GPU,且可提供3.25倍至4.5倍的推理加速度。