后训练量化大型语言模型的缩放规律
BiLLM是一种创新的1位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理,超过了LLM的SOTA量化方法。此外,BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程,显示了令人满意的时间效率。
Feb, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
量化作为一种改善大型语言模型的存储和计算效率的有前途的技术,本研究以新的扰动视角,研究了量化与大型语言模型性能之间的关系,并发现了扰动特性与性能之间的联系,提供了改善模型量化鲁棒性的潜在解决方案,并在实验证明了基于这一视角的简单非均匀量化方法在权重和激活量化方面都能达到较小的性能损失,以此改善大型语言模型的效率而不牺牲性能。
Mar, 2024
近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型(LLMs)有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势,但现有研究指出,量化可能损害性能并加剧LLMs中的偏见。本研究通过考虑语言模型类型和规模等因素,调查了量化模型的置信度和校准情况,揭示了通过GPTQ进行4位量化会导致对真实标签置信度的降低,同时不同语言模型之间观察到的影响差异。另外,本研究观察到在不同规模下对置信度影响的波动。最后,我们提出了一种基于置信度水平的量化损失解释,表明量化不成比例地影响了一开始完整模型置信度较低的样本。
May, 2024
探索量化大型语言模型的最佳实践,平衡性能与计算效率。通过基准测试和实验,提出了与标定数据、量化算法和量化方案相对应的三个关键点,并构建了最佳的LLM PTQ流水线。
May, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本文研究了在达到特定准确度或困惑度目标时,混合量化对大型语言模型所需的高精度计算量。提出了量化比这一关键指标,通过实验发现,规模越大的模型在保持性能方面表现越佳,并且采用更细粒度的混合精度量化可进一步提升量化比,这为未来的AI硬件设计和高效AI算法的发展提供了重要见解。
Oct, 2024
本文针对后训练压缩后大型语言模型的质量不可预测问题,进行了系统的实证研究,探讨了多种低精度张量数据类型的量化效果。研究发现,与局部损失景观特征相关的关键规模因子可以显著改善量化模型的性能预测,提供了新颖的统计模型框架,为这一领域填补了空白。
Oct, 2024