Atom：高效准确的 LLM 服务器的低比特量化

Oct, 2023

Atom：高效准确的 LLM 服务器的低比特量化

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen...

TL;DRAtom 是一种低位量化方法，通过使用低位算子和低位量化显著提高 serving 吞吐量以及减少内存消耗，同时保持相同的延迟目标。

Abstract

The growing demand for large language models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for llm service providers. To efficiently

large language models llm service providers gpu resources batching multiple requests atom

发现论文，激发创造

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

QServe: W4A8KV4 量化和系统协同设计用于高效 LLM 服务

量化技术在提速大规模语言模型推理方面发挥作用，但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法，该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战，并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率，采用渐进量化来减小 W4A8 GEMM 的量化开销，并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降，从而有效提高 LLM 的服务吞吐量，降低成本。

May, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

在 GPU 上实现快速 2 位硬件离线量化低内存映射：内存对齐、稀疏离群值和异步解量化

通过以较小的计算代价解决对大型语言模型（LLMs）进行量化和去量化操作时所面临的问题，我们提出了一种新的技术，并在不同模型和尺寸上进行了广泛实验，成功实现了每个权重的 2.85 位表示，模型的端到端加速比为 1.74 倍，同时降低了运行成本和硬件需求。

Nov, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

FlattenQuant: 通过 Per-tensor 量化来突破大型语言模型的推断计算限制

使用 FlattenQuant 方法在大型语言模型中实现低比特量化，通过将张量中的大通道展平以显著减少张量的最大值，本方法能够直接使用 4 位来实现 LLMs 中线性层计算的 48.29%，并使用 8 位来处理其余层，从而实现高达 2 倍的速度提升和 2.3 倍的内存减少，而准确度损失微不足道。

Feb, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

敏捷量化：边缘端低延迟的 LLM 快速推理的激活引导量化

本文介绍了一种针对大型语言模型的激活引导量化框架 Agile-Quant，通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。

Dec, 2023

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023