Aug, 2023

FPTQ:大型语言模型的细粒度后训练量化

TL;DR本研究提出了一种新的基于W4A8的后训练量化方法,结合了现有的两种技术的优势,实现了4位权重量化和8位矩阵计算加速,在多个标准基准测试中获得最新的W4A8量化性能,为大型语言模型的实际应用提供了可能。