现代 LLM 的量化中异常值和校准集的影响逐渐减小

May, 2024

现代 LLM 的量化中异常值和校准集的影响逐渐减小

Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs

Davide Paglieri, Saurabh Dash, Tim Rocktäschel, Jack Parker-Holder

TL;DR通过减少内存使用和提高操作速度，后训练量化（PTQ）能够增强大型语言模型（LLMs）的效率和与更多硬件的兼容性，尽管会导致一定的性能下降。然而，我们的研究发现在不同已知的开源 LLMs 中，校准集对于评估激活幅度和检测异常值至关重要，异常值可能扭曲量化范围并对性能产生负面影响。因此，我们建议重新评估当前量化文献的基础知识，从主要关注异常值保留转向优化推断速度，以适应现代化 LLMs 的特性。

Abstract

post-training quantization (PTQ) enhances the efficiency of Large Language Models (LLMs) by enabling faster operation and compatibility with more accessible hardware through reduced memory usage, at the cost of small performance drops. We explore the role of →

post-training quantization large language models calibration sets hidden activations outliers

发现论文，激发创造

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

大语言模型中的权重量化激活异常值教训

本文提出了一种后训练量化方法，可以在不损失质量的情况下，在模型中针对 weight 使用较高的精度，大大降低了模型推理需要的 GPU 数量，实现了更高的经济性。

Jun, 2023

大型语言模型的后训练修剪和量化受校准数据的影响

通过大型语言模型的模型压缩，剪枝和量化构成了神经网络模型压缩的基础，而本文首次对校准数据对 LLM 性能的影响进行了广泛的实证研究，并发现下游任务性能存在显著的变化，为 LLM 量化和剪枝的有效使用提供了一系列的建议。

Nov, 2023

AdpQ：一种无需校准自适应后训练量化方法

本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法，通过采用自适应软阈值方法分离显著权重，实现低精度量化（如 3 位）中无需任何校准数据的最先进性能，进一步提供隐私保护优势，而且在各种 LLM 基准测试中达到与现有方法相同的准确性，即使量化时间缩短至少 10 倍。

May, 2024

RPTQ: 基于重排序的后训练量化方法用于大型语言模型

本文提出了一种新的基于重新排序的量化方法 RPTQ，用于解决大规模语言模型序列的激活范围之间的不同，从而将其缩小到 3 位激活，减少存储和计算的开销。

Apr, 2023

OAC：用于准确的训练后量化的输出自适应校准

大语言模型的压缩和量化是一项重要的研究领域，本文提出了一种输出自适应校准的方法，用于减少压缩和量化过程中的信息损失，并在极低精度量化方面取得了优于现有方法的表现。

May, 2024

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

结合多种后训练技术实现最高效的量化 LLMs

通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

May, 2024

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023