评估量化的大型语言模型

Feb, 2024

Evaluating Quantized Large Language Models

Shiyao Li, Xuefei Ning, Luning Wang, Tengxuan Liu, Xiangsheng Shi...

TL;DR本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Abstract

post-training quantization (PTQ) has emerged as a promising technique to reduce the cost of large language models (LLMs). Specifically, PTQ can effectively mitigate memory consumption and reduce computational ove

post-training quantization large language models quantized llms evaluation quantization methods

发现论文，激发创造

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

结合多种后训练技术实现最高效的量化 LLMs

通过 quantization 技术，结合 SmoothQuant 和 GPTQ 两种 post-training 技术，将模型量化为 MX 格式，能够显著减小优化型模型大小至多 4 倍，提高 LLaMA 模型大小至多 3 倍，同时仅仅增加 1-3% 的困惑度。

May, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

大型语言模型的后训练量化综合研究

通过数万次的零 - shot 实验，我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究，发现细粒度量化和 PTQ 方法是获得良好准确性所必需的，并且粗粒度量化的高比特位（例如，5 比特）比非常细粒度量化的低比特位（例如，4 比特）更强大。

Mar, 2023

WKVQuant：量化权重和键 / 值缓存以提升大型语言模型的性能

该论文提出了一种针对大型语言模型的量化方法，即使用 WKVQuant 框架对权重和关键 / 值（KV）缓存进行量化，通过过去量化改进注意力计算，并引入二维量化策略处理 KV 缓存分布，结合跨块重构正则化进行参数优化，实验证明 WKVQuant 能够几乎实现与权重 - 激活量化相当的内存节省，并接近仅权重量化的性能。

Feb, 2024

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

现代 LLM 的量化中异常值和校准集的影响逐渐减小

通过减少内存使用和提高操作速度，后训练量化（PTQ）能够增强大型语言模型（LLMs）的效率和与更多硬件的兼容性，尽管会导致一定的性能下降。然而，我们的研究发现在不同已知的开源 LLMs 中，校准集对于评估激活幅度和检测异常值至关重要，异常值可能扭曲量化范围并对性能产生负面影响。因此，我们建议重新评估当前量化文献的基础知识，从主要关注异常值保留转向优化推断速度，以适应现代化 LLMs 的特性。

May, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

大语言模型中的权重量化激活异常值教训

本文提出了一种后训练量化方法，可以在不损失质量的情况下，在模型中针对 weight 使用较高的精度，大大降低了模型推理需要的 GPU 数量，实现了更高的经济性。

Jun, 2023