EasyQuant: 一种高效无数据量化算法用于LLMs
SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现LLMs的8位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达2倍的内存减少和1.56倍的加速,是一个可降低硬件成本、民主化LLMs的一站式解决方案。
Nov, 2022
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
本研究采用Coordinate Descent(CD)技术,通过QuantEase分层量化框架对Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎3位量化并提高模型性能。
Sep, 2023
通过自适应通道重组技术,QLLM提出了一种准确高效的低精度模型量化方法,实现了对大规模语言模型的低精度量化,并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。
Oct, 2023
本研究提出了一种通过低秩近似和量化相结合的方法,使用激活引起的比例矩阵将量化误差的奇异值分布调整到理想值,实现了在各种大型语言模型和相关任务上几乎无失真的W4A8量化,而无需知识蒸馏、网格搜索或基于梯度的迭代优化,并且与现有方法相比,计算模式中的LQER消除了从不规则内存位置收集高精度权重所需的专用Scatter和Gather过程,从而在六个热门任务上实现了接近无失真性能,同时使用的硬件资源比领先的最先进方法少1.36倍。
Feb, 2024
通过 quantization 技术,结合 SmoothQuant 和 GPTQ 两种 post-training 技术,将模型量化为 MX 格式,能够显著减小优化型模型大小至多 4 倍,提高 LLaMA 模型大小至多 3 倍,同时仅仅增加 1-3% 的困惑度。
May, 2024
使用全面的基准套件,我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响,并且发布了一个模块化设计的工具包来帮助未来的研究。
Jun, 2024
本研究针对大语言模型在实际应用中面临的高内存和计算需求问题,提出低比特量化作为一种解决方案。论文通过系统性综述低比特量化方法,涵盖基本原理、系统实现以及算法策略,为未来大语言模型的高效性和适用性提供了重要的见解和指导。
Sep, 2024
本文针对大型语言模型在实际应用中面临的高内存和计算需求问题,提出了低比特量化作为解决方案。通过系统地总结低比特量化的方法和实现,提供了基础概念、系统框架及高效训练与推理技术的深入分析,指出未来低比特大型语言模型发展的潜力和趋势。
Sep, 2024