无需反向传播的注意力感知后训练量化

Jun, 2024

无需反向传播的注意力感知后训练量化

Attention-aware Post-training Quantization without Backpropagation

Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim...

TL;DR提出了一种不依赖于反向传播的新型 PTQ 算法，通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系，从而显著优于传统的 PTQ 方法，特别是在低位宽情况下。

Abstract

quantization is a promising solution for deploying large-scale language models (LLMs) on resource-constrained devices. Existing quantization approaches, however, rely on gradient-based optimization, regardless of

quantization language models post-training quantization quantization-aware training inter-layer dependencies

发现论文，激发创造

后训练量化中的注意力轮

本研究提出了一种名为 Attention Round 的新型量化方法，利用密度函数实现了参数映射，使得小样本量即可完成量化加速，并通过损失编码长度对模型的不同层进行位宽分配来解决混合精度量化问题，该方法在不同模型上的实验结果表明具有良好的量化性能及实用性。

Jul, 2022

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024

迈向超大规模 Transformer 的下一级后训练量化

本文提出了一种新颖的 PTQ 算法 aespa，通过逐层量化实现高效性，同时考虑跨层依赖以保留注意力分数，通过对多种语言模型的广泛实验和复杂度分析，证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。

Feb, 2024

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024

基于梯度的训练后量化：对现状的挑战

量化方法在深度神经网络的高效部署中变得至关重要，深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法（GPTQ），证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性，并提出了设计更高效、可扩展的 GPTQ 方法的准则，最后还提出了一种基于重要性的混合精度技术，这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进，为设计可扩展且有效的量化方法开辟了新的可能。

Aug, 2023

神经网络量化白皮书

介绍了现代神经网络中减少计算成本和提高性能的两种量化算法： Post-Training Quantization 和 Quantization-Aware Training。

Jun, 2021

使用层间依赖增强 Hessian 矩阵，用于混合精度后训练量化

提出了一种混合精度后训练量化（PTQ）方法，使用二阶信息和层间依赖关系指导双分搜索，以在用户可配置的模型准确度降低范围内找到量化配置。该方法可以降低内存占用并提高延迟，同时保持模型准确性。

Jun, 2023

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和 KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

QuantEase: 基于优化的语言模型量化 -- 一种高效直观的算法

本研究采用 Coordinate Descent（CD）技术，通过 QuantEase 分层量化框架对 Large Language Models（LLMs）进行后训练量化，包括离群值感知算法，以实现近乎 3 位量化并提高模型性能。

Sep, 2023