Aug, 2023

FPTQ:大型语言模型的细粒度后训练量化

TL;DR本研究提出了一种新的基于 W4A8 的后训练量化方法,结合了现有的两种技术的优势,实现了 4 位权重量化和 8 位矩阵计算加速,在多个标准基准测试中获得最新的 W4A8 量化性能,为大型语言模型的实际应用提供了可能。