CLAQ：推动 LLM 的低比特后训练量化极限

May, 2024

CLAQ：推动 LLM 的低比特后训练量化极限

CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs

Haoyu Wang, Bei Liu, Hang Shao, Bo Xiao, Ke Zeng...

TL;DR该论文介绍了一种基于列级适应性权重量化（CLAQ）框架的参数量化方法，通过引入三种不同的自适应策略，可以在大规模语言模型中减少内存占用和提高计算效率。实验结果表明，在不同比特设置下，尤其是在极低比特情况下，该方法能够取得最先进的结果。

Abstract

parameter quantization for large language models (LLMs) has attracted increasing attentions recently in reducing memory costs and improving computational efficiency. Early approaches have been widely adopted. How

parameter quantization large language models quantization centroids adaptive precision search strategy outlier reservation scheme

发现论文，激发创造

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

BiLLM: 提高 LLM 后训练量化的极限

BiLLM 是一种创新的 1 位后训练量化方案，定制了预训练的大型语言模型，实现了仅使用 1.08 位权重在各种 LLM 家族和评估指标上实现高准确度的推理，超过了 LLM 的 SOTA 量化方法。此外，BiLLM 能够在单个 GPU 上在 0.5 小时内实现对拥有 70 亿权重的 LLM 的二值化过程，显示了令人满意的时间效率。

Feb, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

大型语言模型的极端压缩：基于加性量化

该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。

Jan, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

AdpQ：一种无需校准自适应后训练量化方法

本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法，通过采用自适应软阈值方法分离显著权重，实现低精度量化（如 3 位）中无需任何校准数据的最先进性能，进一步提供隐私保护优势，而且在各种 LLM 基准测试中达到与现有方法相同的准确性，即使量化时间缩短至少 10 倍。

May, 2024

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

SliM-LLM：面向大型语言模型的显著性驱动混合精度量化

本文提出了一种基于显著性驱动的混合精度量化方案，即 SliM-LLM，用于改进大型语言模型的精度和内存占用，并通过集成梯度量化器进一步减少困惑度。

May, 2024

OneBit: 极低位大型语言模型

该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销，并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能（至少达到非量化性能的 83%）。

Feb, 2024

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用 Coordinate Descent（CD）技术，通过 QuantEase 分层量化框架对 Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎 3 位量化并提高模型性能。

Sep, 2023