面向重参数化模型的准确后训练量化

Feb, 2024

面向重参数化模型的准确后训练量化

Towards Accurate Post-training Quantization for Reparameterized Models

Luoming Zhang, Yefei He, Wen Fei, Zhenyu Lou, Weijia Wu...

TL;DR通过使用平均绝对误差作为评估指标，我们提出了一种新的框架 RepAPQ，它有效地保持了量化再参数化模型的准确性，并通过量化保护再参数化和跨块校准的组件实现了更好的模型性能。实验证明，我们的方法在各种模型和任务上都优于以前的方法，8 位 PTQ 的提升约为 1％，6 位 PTQ 的提升约为 2％。

Abstract

Model reparameterization is a widely accepted technique for improving inference speed without compromising performance. However, current post-training quantization (PTQ) methods often lead to significant accuracy

reparameterization post-training quantization mean absolute error calibration model performance

发现论文，激发创造

RepQuant: 基于尺度重参数化的大型 Transformer 模型准确的后训练量化

提出了一种新型的后训练量化框架 RepQuant，通过量化推理解耦合范式，采用复杂的量化器进行量化过程，采用简化的量化器进行推理过程，同时将量化标度重新参数化，以确保准确的量化和高效的推理，并通过集成量化权重重构进一步提高性能限制，经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。

Feb, 2024

RepQ：通用量化感知训练重新参数化架构

现有的神经网络在资源受限环境中部署困难，本文通过提出一种称为 RepQ 的新方法，将量化应用于重新参数化的网络，以提高神经网络的效率和模型性能。

Nov, 2023

RAPQ: 针对二次幂低比特后训练量化提高精度

提出一种名为 RAPQ 的 Power-of-Two 低位后训练量化方法，动态调整整个网络的二的幂次方比例因子，用 BN 信息进行重构，证明该方法可以实现近似于 SOTA 方法的高精度，代码已发布。

Apr, 2022

AdpQ：一种无需校准自适应后训练量化方法

本研究提出了一种名为 AdpQ 的零样本自适应 PTQ 方法，通过采用自适应软阈值方法分离显著权重，实现低精度量化（如 3 位）中无需任何校准数据的最先进性能，进一步提供隐私保护优势，而且在各种 LLM 基准测试中达到与现有方法相同的准确性，即使量化时间缩短至少 10 倍。

May, 2024

后训练量化中的注意力轮

本研究提出了一种名为 Attention Round 的新型量化方法，利用密度函数实现了参数映射，使得小样本量即可完成量化加速，并通过损失编码长度对模型的不同层进行位宽分配来解决混合精度量化问题，该方法在不同模型上的实验结果表明具有良好的量化性能及实用性。

Jul, 2022

BRECQ: 通过块重构推动后训练量化的极限

本文介绍了一种名为 BRECQ 的新型 PTQ 框架，通过重构神经网络的组件来将 PTQ 的位宽降至 INT2，并将混合精度技术结合到框架中。对多种手工制作和搜索的神经体系结构进行了广泛的实验，证明了 PTQ 可以实现比使用 QAT 的 4 位 ResNet 和 MobileNetV2 更快的速度制作量化模型。

Feb, 2021

MRQ: 通过模型重新量化支持多种量化方案

本文介绍了一种新型模型量化方法 MRQ（Model Re-quantization)，可将现有的量化模型迅速转换以满足不同的量化需求，克服了重新训练的成本和支持多种量化方案的限制。通过权重校正和舍入误差折叠等新的重量化算法，MobileNetV2 QAT 模型可在不到 0.64 的准确度损失下快速重新量化为两种不同的量化方案，已成功部署在 Echo Show 设备的 NNA 中。

Aug, 2023

OAC：用于准确的训练后量化的输出自适应校准

大语言模型的压缩和量化是一项重要的研究领域，本文提出了一种输出自适应校准的方法，用于减少压缩和量化过程中的信息损失，并在极低精度量化方面取得了优于现有方法的表现。

May, 2024

APTQ：针对大型语言模型的注意力感知后训练混合精度量化

通过引入 APTQ（关注感知的后训练混合精度量化），该研究提出了一种在大规模语言模型上进行混合精度量化的方法，利用 Hessian 迹作为灵敏度指标，以实现在模型性能保持的前提下进行精度降低，并取得了优于以往量化方法的效果。

Feb, 2024

CBQ：大型语言模型的跨块量化

基于交叉块重建的后训练量化方法 (CBQ) 通过优化量化参数和降低重构困难来提高大规模语言模型的效率和性能。

Dec, 2023