Aug, 2023
FPTQ:大型语言模型的细粒度后训练量化
FPTQ: Fine-grained Post-Training Quantization for Large Language Models
Qingyuan Li, Yifan Zhang, Liang Li, Peng Yao, Bo Zhang...
TL;DR本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。