SpinQuant: 利用学习到的旋转进行 LMM 量化

May, 2024

SpinQuant: 利用学习到的旋转进行 LMM 量化

SpinQuant: LLM quantization with learned rotations

Zechun Liu, Changsheng Zhao, Igor Fedorov, Bilge Soran, Dhruv Choudhary...

TL;DR通过优化旋转参数，针对大型语言模型（LLMs）进行后训练量化（PTQ）可显著减少内存使用、延迟和功耗，并减小其量化误差。通过将随机旋转应用于 LLMs 中的激活和权重矩阵，SpinQuant 方法优化旋转矩阵来减小量化误差，对比其他方法提升了零样本推理性能，尤其在难以量化的模型上获得了显著提升。

Abstract

post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large qua

post-training quantization memory usage outliers rotation parameterizations zero-shot reasoning

发现论文，激发创造

QuaRot：无异常值的旋转 LLMs 中的 4 位推断

利用 QuaRot 的旋转新量化方案，对 LLMs 进行端到端的量化，包括所有权重、激活以及 KV 缓存，并且通过旋转隐藏状态和前馈组件的激活来实现计算的不变性，从而能够以 4 位执行所有矩阵乘法，保留 99% 的零 - shot 性能。

Mar, 2024

SmoothQuant：大型语言模型后训练量化的准确高效算法

SmoothQuant 是一个训练免费的精度保持、通用的后训练量化解决方案，用于大型语言模型（LLMs），通过平滑激活异常值并在权重和激活之间进行数学上等效的变换以迁移量化难度，可以实现 LLMs 的 8 位权重和激活（W8A8）量化，同时提高硬件效率，以较小的精度损失实现高达 2 倍的内存减少和 1.56 倍的加速，是一个可降低硬件成本、民主化 LLMs 的一站式解决方案。

Nov, 2022

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

高级异常管理和低延迟闪存器件的高效旋转和置换

本研究提出了一种创新的量化策略 ——DuQuant，采用旋转和置换变换更有效地消除异常激活，并在多个任务中表现出卓越的异常值管理能力，即使在 4 位权重 - 激活量化下也能取得顶级结果。

Jun, 2024

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023

LLM-FP4: 4 位浮点数量化变压器

我们提出了 LLM-FP4，在训练后将大型语言模型（LLM）的权重和激活量化为 4 位浮点数值。

Oct, 2023

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

AffineQuant：大型语言模型的仿射变换量化

基于等效仿射变换的后训练量化方法 (AffineQuant) 扩展了优化范围，显著减少了量化误差，在大规模语言模型上达到了显著的性能提升，并在 PTQ 领域树立了新的技术标杆。

Mar, 2024

SpQR: 一种稀疏量化表示法，用于近无损 LLM 重量压缩

通过 Sparse-Quantized Representation（SpQR）压缩 LLMs，提出全新的压缩格式和量化技术，通过将所有其他权重压缩到 3-4 位并将异常权重以高精度存储以解决精度问题，既能保存模型的准确性，又能达到先前方法相似的压缩水平，该方法的运行速度要比 16 位基线快，并实现超过 4 倍的内存压缩收益。

Jun, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023