APTQ:针对大型语言模型的注意力感知后训练混合精度量化
提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。
Jun, 2024
通过自适应通道重组技术,QLLM 提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。
Oct, 2023
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合,有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。
Jun, 2024
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法,通过采用自适应软阈值方法分离显著权重,实现低精度量化(如 3 位)中无需任何校准数据的最先进性能,进一步提供隐私保护优势,而且在各种 LLM 基准测试中达到与现有方法相同的准确性,即使量化时间缩短至少 10 倍。
May, 2024
L4Q 是一种参数高效的量化感知训练算法,利用 LLMs 中学到的低秩适应性量化步长,实现对高精度模型的同时量化和微调,达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。
Feb, 2024
本论文通过对 PTQ 技术在 11 个模型家族的综合评估,系统总结了量化对权重、激活函数和 KV Cache 的影响,提供了应用量化技术的建议,指出了未来的研究方向。
Feb, 2024
本研究采用 Coordinate Descent(CD)技术,通过 QuantEase 分层量化框架对 Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎 3 位量化并提高模型性能。
Sep, 2023
本研究提出了一种名为 Attention Round 的新型量化方法,利用密度函数实现了参数映射,使得小样本量即可完成量化加速,并通过损失编码长度对模型的不同层进行位宽分配来解决混合精度量化问题,该方法在不同模型上的实验结果表明具有良好的量化性能及实用性。
Jul, 2022
该研究探讨了大型语言模型的后训练量化,特别是 4 位权重和 8 位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决 W4A8 量化中的下溢问题,并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与 dINT 兼容的算术单元的开发,进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。
Nov, 2023