QuaRot：无异常值的旋转 LLMs 中的 4 位推断

Mar, 2024

QuaRot：无异常值的旋转 LLMs 中的 4 位推断

QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs

Saleh Ashkboos, Amirkeivan Mohtashami, Maximilian L. Croci, Bo Li, Martin Jaggi...

TL;DR利用 QuaRot 的旋转新量化方案，对 LLMs 进行端到端的量化，包括所有权重、激活以及 KV 缓存，并且通过旋转隐藏状态和前馈组件的激活来实现计算的不变性，从而能够以 4 位执行所有矩阵乘法，保留 99% 的零 - shot 性能。

Abstract

We introduce quarot, a new quantization scheme based on rotations, which is able to quantize →

quarot quantization rotations llms hidden state

发现论文，激发创造

SpinQuant: 利用学习到的旋转进行 LMM 量化

通过优化旋转参数，针对大型语言模型（LLMs）进行后训练量化（PTQ）可显著减少内存使用、延迟和功耗，并减小其量化误差。通过将随机旋转应用于 LLMs 中的激活和权重矩阵，SpinQuant 方法优化旋转矩阵来减小量化误差，对比其他方法提升了零样本推理性能，尤其在难以量化的模型上获得了显著提升。

May, 2024

高级异常管理和低延迟闪存器件的高效旋转和置换

本研究提出了一种创新的量化策略 ——DuQuant，采用旋转和置换变换更有效地消除异常激活，并在多个任务中表现出卓越的异常值管理能力，即使在 4 位权重 - 激活量化下也能取得顶级结果。

Jun, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

迈向端到端基于生成型大语言模型的 4 位推理

大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算，同时保持良好的准确性；我们通过名为 QUIK 的混合量化策略实现这一目标，该策略将大多数权重和激活值压缩为 4 位，将一些异常值保留在较高精度；关键是，我们的方案专注于计算效率，提供高效的逐层 GPU 内核，相对于 FP16 执行，端到端的吞吐量可提高最多 3.1 倍。

Oct, 2023

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

QServe: W4A8KV4 量化和系统协同设计用于高效 LLM 服务

量化技术在提速大规模语言模型推理方面发挥作用，但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法，该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战，并通过 QServe 推理库实现。QServe 在 GPU 上通过低吞吐 CUDA 核心上的操作来提高 LLM 服务的效率，采用渐进量化来减小 W4A8 GEMM 的量化开销，并通过 SmoothAttention 减轻 4 位 KV 量化带来的精度下降，从而有效提高 LLM 的服务吞吐量，降低成本。

May, 2024