Jun, 2024

LLM 的低秩量化感知训练

TL;DR大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。