AWEQ:适用于大型语言模型的后训练量化与激活权重均衡
本文提出了一种后训练量化方法,可以在不损失质量的情况下,在模型中针对weight使用较高的精度,大大降低了模型推理需要的GPU数量,实现了更高的经济性。
Jun, 2023
本研究提出了一种新的基于W4A8的后训练量化方法,结合了现有的两种技术的优势,实现了4位权重量化和8位矩阵计算加速,在多个标准基准测试中获得最新的W4A8量化性能,为大型语言模型的实际应用提供了可能。
Aug, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
通过自适应通道重组技术,QLLM提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。
Oct, 2023
这篇论文介绍了一种可训练的等价转换方法,能够在保持模型输出的FP32精度的情况下,利用低精度量化,特别是3位和4位的权重量化来满足现代架构的计算需求,该方法在训练过程中轻量级且对推断过程没有计算开销,与当前最先进方法的结果相媲美,并可与其他方法结合以获得更好的性能。
Oct, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
通过引入APTQ(关注感知的后训练混合精度量化),该研究提出了一种在大规模语言模型上进行混合精度量化的方法,利用Hessian迹作为灵敏度指标,以实现在模型性能保持的前提下进行精度降低,并取得了优于以往量化方法的效果。
Feb, 2024
本研究提出了一种名为AdpQ的零样本自适应PTQ方法,通过采用自适应软阈值方法分离显著权重,实现低精度量化(如3位)中无需任何校准数据的最先进性能,进一步提供隐私保护优势,而且在各种LLM基准测试中达到与现有方法相同的准确性,即使量化时间缩短至少10倍。
May, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本研究解决了大规模语言模型(LLM)在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化(VPTQ)方法,通过二阶优化改进量化算法,并提出有效的码本初始化算法,从而在达到极低比特量化的同时提高了模型准确性。实验结果表明,VPTQ在多个模型上显著降低了量化困惑度,并提高了推断吞吐量。
Sep, 2024