通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
通过自适应通道重组技术,QLLM提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。
Oct, 2023
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
量化作为一种改善大型语言模型的存储和计算效率的有前途的技术,本研究以新的扰动视角,研究了量化与大型语言模型性能之间的关系,并发现了扰动特性与性能之间的联系,提供了改善模型量化鲁棒性的潜在解决方案,并在实验证明了基于这一视角的简单非均匀量化方法在权重和激活量化方面都能达到较小的性能损失,以此改善大型语言模型的效率而不牺牲性能。
Mar, 2024
LLaMA3在低位量化方面存在明显的性能下降问题,需要在未来的发展中弥合低位宽度下的性能差距,此经验研究对于推进未来模型的发展非常有价值。
Apr, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
现代大型语言模型通过架构改进取得了最先进的性能,但仍需要昂贵的计算成本进行推理。本文研究了GLU变体中激活量化的挑战,揭示了过量激活量级引起的严重局部量化误差,提出了两种经验方法来隔离激活峰值,并验证了在最新的GLU变体的大型语言模型中的有效性。
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
使用EfficientQAT,一种新的量化技术,可以通过压缩大型语言模型来减少内存需求,同时保持较低的精度损失。
Jul, 2024
本研究解决了以往对量化大语言模型评估的不足,尤其是针对最近的405B大模型(如Llama 3.1)的缺乏全面分析。通过对多种量化方法的评估,发现较大模型的量化性能普遍优于较小的FP16模型,并且不同量化方法和模型尺寸会显著影响结果,这对未来量化技术的应用具有重要影响。
Sep, 2024