QLLM:用于大型语言模型的准确高效低比特量化
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
在本文中,我们介绍了一种称为norm tweaking的技术,可以作为当前PTQ方法的插件使用,以实现高精度并且具有成本效益的模型压缩。通过校准数据生成和通道级距离约束来更新归一化层的权重,我们的方法在权重量化和权重与激活联合量化方面取得了显著的改进,在2位量化情况下甚至达到与浮点数模型相同的精度水平。我们的简单有效的方法使其在实际应用中更加实用。
Sep, 2023
本研究提出了EasyQuant,这是一种训练免费且独立于数据的权重量化算法,旨在实现对大型语言模型(LLMs)的几乎无损量化性能,且算法运行速度比依赖于数据的方法快10倍以上。
Mar, 2024
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的LLM PTQ流水线。
May, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
大型语言模型经常遇到计算和存储需求增加的挑战,为此我们提出了一种名为LR-QAT的轻量级、存储高效的量化感知训练算法,通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件,我们可以在不牺牲预测性能的情况下节省内存,该方法可应用于多种量化设置并与多种PTQ技术无缝结合,有效提升模型性能并在内存使用上达到与全模型QAT相当的水平。
Jun, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本研究解决了大规模语言模型(LLM)在部署和推断时面临的内存和带宽限制问题。我们提出了一种全新的向量后训练量化(VPTQ)方法,通过二阶优化改进量化算法,并提出有效的码本初始化算法,从而在达到极低比特量化的同时提高了模型准确性。实验结果表明,VPTQ在多个模型上显著降低了量化困惑度,并提高了推断吞吐量。
Sep, 2024