LeanQuant: 准确的大型语言模型量化方法 - 基于损失-误差感知的网格
SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案,用于大型语言模型(LLMs),通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度,可以实现LLMs的8位权重和激活(W8A8)量化,同时提高硬件效率,以较小的精度损失实现高达2倍的内存减少和1.56倍的加速,是一个可降低硬件成本、民主化LLMs的一站式解决方案。
Nov, 2022
为了解决大型语言模型在实际应用中的内存需求和推断成本的问题,我们提出了一种高效的仅权重量化方法,通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法,仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型,并且无需额外的微调。通过分析量化大型语言模型的挑战和问题,并采用自适应的量化粒度进行解决,我们展示了我们提出的方法的有效性。此外,我们实现了高效的GPU矩阵乘法和解量化算法,支持fp16或bf16激活与int8或int4权重的乘法。我们在OPT-175B和内部混合专家模型等大规模开源模型上评估了我们的方法,展示了最小的准确性损失,并在相同数量的GPU上实现了高达3.65倍的吞吐量。
Aug, 2023
该研究探讨了大型语言模型的后训练量化,特别是4位权重和8位激活(W4A8)量化,以提高计算效率,介绍了激活量化感知的缩放(AQAS)和序列长度感知的校准(SLAC)等创新技术,并引入了整数和非规格化表示的混合数据格式(dINT)来解决W4A8量化中的下溢问题,并通过对LLMs的严格评估证明这些技术显著提高了任务准确度,并且与完整精度模型相当,通过与dINT兼容的算术单元的开发,进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。
Nov, 2023
提出了SmoothQuant+方法,它是一种准确而高效的4位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过SmoothQuant+,Code Llama-34B模型能够在一张A100 40GB GPU上实现无损的准确度,并且相较于在两张A100 40GB GPUs上部署的FP16模型,能够提高1.9至4.0倍的吞吐量,每个token的延迟仅为FP16模型的68%。这是已知的大语言模型4位权重量化的最先进方法。
Dec, 2023
BiLLM是一种创新的1位后训练量化方案,定制了预训练的大型语言模型,实现了仅使用1.08位权重在各种LLM家族和评估指标上实现高准确度的推理,超过了LLM的SOTA量化方法。此外,BiLLM能够在单个GPU上在0.5小时内实现对拥有70亿权重的LLM的二值化过程,显示了令人满意的时间效率。
Feb, 2024
该论文提出了一种针对大型语言模型的量化方法,即使用WKVQuant框架对权重和关键/值(KV)缓存进行量化,通过过去量化改进注意力计算,并引入二维量化策略处理KV缓存分布,结合跨块重构正则化进行参数优化,实验证明WKVQuant能够几乎实现与权重-激活量化相当的内存节省,并接近仅权重量化的性能。
Feb, 2024
对大型语言模型的量化技术进行研究,发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过使用低秩权重缩放矩阵代替常规的全权重缩放矩阵,我们提出了一种低秩量化方法(LRQ),可以在大规模语言模型中取得更高的压缩性能和推断效率,提高量化语言模型的泛化能力。
Jul, 2024
本研究解决了大语言模型在资源受限设备上部署时的性能下降问题。提出的梯度感知权重量化(GWQ)方法通过利用梯度信息局部化异常值,仅需少量校准数据便可检测异常,显著提高了不同语言模型的量化性能,并在多个任务上超越了现有方法。最重要的发现是,GWQ在保证精度的同时实现了推理速度的提升和内存利用的有效减少。
Oct, 2024