减轻 GLU-Based LLMs 中由激活峰值引起的量化误差

May, 2024

减轻 GLU-Based LLMs 中由激活峰值引起的量化误差

Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs

Jaewoo Yang, Hayun Kim, Younghoon Kim

TL;DR现代大型语言模型通过架构改进取得了最先进的性能，但仍需要昂贵的计算成本进行推理。本文研究了 GLU 变体中激活量化的挑战，揭示了过量激活量级引起的严重局部量化误差，提出了两种经验方法来隔离激活峰值，并验证了在最新的 GLU 变体的大型语言模型中的有效性。

Abstract

Modern large language models (LLMs) have established state-of-the-art performance through architectural improvements, but still require significant computational cost for inference. In an effort to reduce the inference cost, →

large language models post-training quantization activation spikes glu variants quantization-free methods

发现论文，激发创造

敏捷量化：边缘端低延迟的 LLM 快速推理的激活引导量化

本文介绍了一种针对大型语言模型的激活引导量化框架 Agile-Quant，通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。

Dec, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现 LLMs 的 8 位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速，是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。

Nov, 2022

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

大语言模型中的权重量化激活异常值教训

本文提出了一种后训练量化方法，可以在不损失质量的情况下，在模型中针对 weight 使用较高的精度，大大降低了模型推理需要的 GPU 数量，实现了更高的经济性。

Jun, 2023

使用激活正则化减轻离群通道对于语言模型量化的影响

准确的量化是语言模型的关键问题之一，我们研究了激活量化中的异常通道现象，并提出了一种调节输入和输出的策略，通过量化感知训练和激活峰度正则化来实现精确的 4 位参数量化。与权重后训练量化相结合，我们的方法可以获得与标准精度基准相竞争的 W4A4 模型。

Apr, 2024

RPTQ: 基于重排序的后训练量化方法用于大型语言模型

本文提出了一种新的基于重新排序的量化方法 RPTQ，用于解决大规模语言模型序列的激活范围之间的不同，从而将其缩小到 3 位激活，减少存储和计算的开销。

Apr, 2023

I-LLM：针对完全量化低位大型语言模型的高效整数推断

该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM)，解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明，I-LLM 在保持准确性的前提下，可以以 W4A4 进行操作，优于其他非整数量化方法。

May, 2024

FineQuant: 低精度量化后全连接网络权重细粒度优化

为了解决大型语言模型在实际应用中的内存需求和推断成本的问题，我们提出了一种高效的仅权重量化方法，通过减少内存消耗和加速推断来实现。我们引入了一种简单而有效的启发式方法，仅利用预训练模型的模型权重来确保最小质量降低。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，我们展示了我们提出的方法的有效性。此外，我们实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。我们在 OPT-175B 和内部混合专家模型等大规模开源模型上评估了我们的方法，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

Aug, 2023