OAC：用于准确的训练后量化的输出自适应校准

May, 2024

OAC：用于准确的训练后量化的输出自适应校准

OAC: Output-adaptive Calibration for Accurate Post-training Quantization

Ali Edalati, Alireza Ghaffari, Masoud Asgharian, Lu Hou, Boxing Chen...

TL;DR大语言模型的压缩和量化是一项重要的研究领域，本文提出了一种输出自适应校准的方法，用于减少压缩和量化过程中的信息损失，并在极低精度量化方面取得了优于现有方法的表现。

Abstract

Deployment of large language models (LLMs) has major computational costs, due to their rapidly expanding size. compression of LLMs reduces the memory footprint, latency, and energy required for their inference. P

large language models compression post-training quantization output-adaptive calibration low-precision quantization

发现论文，激发创造

AdpQ：一种无需校准自适应后训练量化方法

本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法，通过采用自适应软阈值方法分离显著权重，实现低精度量化（如 3 位）中无需任何校准数据的最先进性能，进一步提供隐私保护优势，而且在各种 LLM 基准测试中达到与现有方法相同的准确性，即使量化时间缩短至少 10 倍。

May, 2024

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024

CDQuant: 使用贪婪协调下降的准确大型预训练模型的训练后权重量化

CDQuant 是一个简单且可扩展的替代 GPTQ 的算法，使用坐标下降法来实现高质量的量化权重，通过在 PaLM2 模型系列上进行广泛评估，我们证明 CDQuant 在各种模型规模和量化级别下始终优于 GPTQ。

Jun, 2024

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM 提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在 LLaMA-2 上相较于之前最先进的方法提高了 7.89% 的平均准确率。

Oct, 2023

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用 Coordinate Descent（CD）技术，通过 QuantEase 分层量化框架对 Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎 3 位量化并提高模型性能。

Sep, 2023

无需反向传播的注意力感知后训练量化

提出了一种不依赖于反向传播的新型 PTQ 算法，通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系，从而显著优于传统的 PTQ 方法，特别是在低位宽情况下。

Jun, 2024

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是 4 位权重和 8 位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决 W4A8 量化中的下溢问题，并通过对 LLMs 的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与 dINT 兼容的算术单元的开发，进一步证实了该方法相对于 8 位整数 MAC 单元可以提升 2 倍硬件效率。

Nov, 2023

OmniQuant：大型语言模型的全向校准量化

利用 OmniQuant 技术对大型语言模型进行后训练量化，实现了在多种量化设置下的出色性能，同时保持计算效率；在实际设备上能够显著提高推理速度和内存减少。

Aug, 2023

现代 LLM 的量化中异常值和校准集的影响逐渐减小

通过减少内存使用和提高操作速度，后训练量化（PTQ）能够增强大型语言模型（LLMs）的效率和与更多硬件的兼容性，尽管会导致一定的性能下降。然而，我们的研究发现在不同已知的开源 LLMs 中，校准集对于评估激活幅度和检测异常值至关重要，异常值可能扭曲量化范围并对性能产生负面影响。因此，我们建议重新评估当前量化文献的基础知识，从主要关注异常值保留转向优化推断速度，以适应现代化 LLMs 的特性。

May, 2024

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024