Apr, 2024

decoupleQ:通过将参数拆分为整数和浮点数实现 2-bit 后训练统一量化

TL;DR通过解耦 Q,我们提出了一种量化方法,将模型参数分解为整数部分和浮点部分,使得量化问题转化为约束条件下的数学优化问题,并通过现成的优化方法解决。该方法在线上实现了接近 fp16/bf16 准确度的 2 位量化大型语音模型,在硬件上更友好且能够应用于高位量化以增强其鲁棒性。