结合多种后训练技术实现最高效的量化LLMs

May, 2024

结合多种后训练技术实现最高效的量化LLMs

Combining multiple post-training techniques to achieve most efficient quantized LLMs

Sayeh Sharify, Zifei Xu, Wanzin Yazar, Xin Wang

TL;DR通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

Abstract

large language models (llms) have distinguished themselves with outstanding performance in complex language modeling tasks, yet they come with significant computational and storage challenges. This paper explores

发现论文，激发创造

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现LLMs的8位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达2倍的内存减少和1.56倍的加速，是一个可降低硬件成本、民主化LLMs的一站式解决方案。

Nov, 2022

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用Coordinate Descent（CD）技术，通过QuantEase分层量化框架对Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎3位量化并提高模型性能。

Sep, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。

Oct, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

EasyQuant: 一种高效无数据量化算法用于LLMs

本研究提出了EasyQuant，这是一种训练免费且独立于数据的权重量化算法，旨在实现对大型语言模型（LLMs）的几乎无损量化性能，且算法运行速度比依赖于数据的方法快10倍以上。

Mar, 2024

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的LLM PTQ流水线。

May, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

后训练量化大型语言模型的规模法则

本文针对后训练压缩后大型语言模型的质量不可预测问题，进行了系统的实证研究，探讨了多种低精度张量数据类型的量化效果。研究发现，与局部损失景观特征相关的关键规模因子可以显著改善量化模型的性能预测，提供了新颖的统计模型框架，为这一领域填补了空白。

Oct, 2024

后训练量化大型语言模型的缩放规律

本研究解决了后训练阶段量化大型语言模型（LLMs）性能的不确定性问题，通过系统的实证研究确定了关键的缩放因素。这些因素帮助我们建立了一个统计模型，可以合理预测量化LLMs的表现，具有重要的实用价值。

Oct, 2024