COMQ:一种免反向传播的用于后训练量化的算法
CDQuant 是一个简单且可扩展的替代 GPTQ 的算法,使用坐标下降法来实现高质量的量化权重,通过在 PaLM2 模型系列上进行广泛评估,我们证明 CDQuant 在各种模型规模和量化级别下始终优于 GPTQ。
Jun, 2024
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023
本文介绍了一种名为 BRECQ 的新型 PTQ 框架,通过重构神经网络的组件来将 PTQ 的位宽降至 INT2,并将混合精度技术结合到框架中。对多种手工制作和搜索的神经体系结构进行了广泛的实验,证明了 PTQ 可以实现比使用 QAT 的 4 位 ResNet 和 MobileNetV2 更快的速度制作量化模型。
Feb, 2021
本文提出一种名为 EasyQuant (EQ) 的简单有效的后训练量化方法,通过尺度优化来获得类似于基于训练方法的精度。具体地,我们针对卷积输出的所有层交替优化权重和激活的规模,以进一步获取高量化精度。然后,我们将位宽降低到 INT7,同时采用 INT16 中间存储和整数 Winograd 卷积实现加速推断。各种计算机视觉任务的实验结果表明,EQ 优于 TensorRT 方法,并且在经过 7 位宽后训练可达到接近 INT8 的精度。
Jun, 2020
提出一种名为 RAPQ 的 Power-of-Two 低位后训练量化方法,动态调整整个网络的二的幂次方比例因子,用 BN 信息进行重构,证明该方法可以实现近似于 SOTA 方法的高精度,代码已发布。
Apr, 2022
本研究采用 Coordinate Descent(CD)技术,通过 QuantEase 分层量化框架对 Large Language Models(LLMs)进行后训练量化,包括离群值感知算法,以实现近乎 3 位量化并提高模型性能。
Sep, 2023
本文提出了一种新颖的一次性剪枝量化(OPQ)方法,使用预先训练的模型参数解决剪枝和量化问题,并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验,结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。
May, 2022
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 比特)更强大。
Mar, 2023