QTIP: 用格点化和不相关处理的量子化

Jun, 2024

QTIP: 用格点化和不相关处理的量子化

QTIP: Quantization with Trellises and Incoherence Processing

Albert Tseng, Qingyao Sun, David Hou, Christopher De Sa

TL;DRQTIP 使用三叶栅编码量化与硬件高效的 “比特移位” 三叶栅结构，实现了具有最先进的量化质量和推理速度的超高维度量化。

Abstract

post-training quantization (PTQ) reduces the memory footprint of llms by quantizing weights to low-precision datatypes. Since LLM inference is usually memory-bound, PTQ methods can improve inference throughput. R

post-training quantization llms vector quantization qtip trellis coded quantization

发现论文，激发创造

QuIP#: 通过哈达玛不相干和格码书更好地 LLM 量化

在这项研究中，我们引入了权重量化的新方法（QuIP#），通过三个创新技术，在极端压缩模式下（每个权重≤4 位）实现了最先进的结果。QuIP# 通过使用随机哈达玛变换改进 QuIP 的不相干处理，并利用具有不相干权重的球形亚高斯分布来使用向量量化技术。此外，QuIP# 使用微调来提高对原始模型的保真度，实验结果显示其超过了现有的 PTQ 方法，支持快速推理。

Feb, 2024

GPTVQ: LLM 量化的维度福祉

在这项研究中，我们展示了通过增加量化维度可以显著改善神经网络量化的大小和准确性之间的权衡。我们提出了 GPTVQ 方法，一种新的快速方法，用于对大型语言模型（LLMs）进行训练后的向量量化（VQ），并在多列的量化和未量化权重更新之间交错使用每层输出重建 MSE 的 Hessian 信息。通过使用数据感知的 EM 算法的高效版本初始化码本，然后使用整数量化和基于 SVD 的压缩来进行进一步压缩。GPTVQ 在诸如 Llama-v2 和 Mistral 之类的各种 LLMs 上建立了新的最先进的大小与准确性权衡状态。此外，我们的方法高效：在单个 H100 上处理 Llamav2-70B 模型需要 3 到 11 个小时，具体取决于量化设置。最后，通过对移动 CPU 上的 VQ 解压缩进行设备上的计时，我们显示 VQ 相比于使用 4 位整数格式可以提供改进的延迟。

Feb, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

大型语言模型的后训练量化综合研究

通过数万次的零 - shot 实验，我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究，发现细粒度量化和 PTQ 方法是获得良好准确性所必需的，并且粗粒度量化的高比特位（例如，5 比特）比非常细粒度量化的低比特位（例如，4 比特）更强大。

Mar, 2023

QuIP：具有保证的大型语言模型的 2 位量化

该研究探讨了在大型语言模型中进行训练后参数量化。通过引入具有不相干处理（QuIP）的量化方法，研究人员发现其在减少权重和 Hessian 矩阵的量化误差方面表现良好，经过优化的舍入过程以及通过随机正交矩阵进行预处理和后处理可进一步提高效果，成功实现了每个权重仅使用两个比特的 LLM 量化方法。

Jul, 2023

COMQ：一种免反向传播的用于后训练量化的算法

采用了一种创新的 PTQ 算法 COMQ，通过逐层坐标最小化重构误差，使得精简后的模型在不损失原始准确性的情况下高效部署

Mar, 2024

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用 Coordinate Descent（CD）技术，通过 QuantEase 分层量化框架对 Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎 3 位量化并提高模型性能。

Sep, 2023

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化

提出了 SmoothQuant + 方法，它是一种准确而高效的 4 位权重量化方法，能够无损地减小大语言模型的内存开销，并且在精确度上没有损失。通过 SmoothQuant+，Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度，并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型，能够提高 1.9 至 4.0 倍的吞吐量，每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。

Dec, 2023

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024