多点后训练量化：混合精度的实现而无需混合精度

AAAIFeb, 2020

多点后训练量化：混合精度的实现而无需混合精度

Post-training Quantization with Multiple Points: Mixed Precision without Mixed Precision

Xingchao Liu, Mao Ye, Dengyong Zhou, Qiang Liu

TL;DR本文提出一种基于多点量化的离线量化方法，该方法通过线性组合多个低精度数据来逼近完整的权重向量。在不使用专门的混合精度实现的情况下，该方法取得了比业界其他方法更好的精度并广泛适用于多个领域。

Abstract

We consider the post-training quantization problem, which discretizes the weights of pre-trained deep neural networks without re-training the model. We propose →

post-training quantization deep neural networks multipoint quantization low-bit numbers imagenet classification

发现论文，激发创造

基于梯度的训练后量化：对现状的挑战

量化方法在深度神经网络的高效部署中变得至关重要，深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法（GPTQ），证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性，并提出了设计更高效、可扩展的 GPTQ 方法的准则，最后还提出了一种基于重要性的混合精度技术，这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进，为设计可扩展且有效的量化方法开辟了新的可能。

Aug, 2023

深度神经网络后训练分段线性量化

本文提出了一种基于分段线性量化的方法，通过最小化量化误差来确定最优的分界点，解决了现有量化方法在低位宽下性能显著下降的问题，在图像分类、语义分割和物体检测等方面表现优异。

Jan, 2020

基于梯度的神经网络芯片上每权重混合精度量化

通过高精度量化训练方法，减少模型大小和推理速度，提高 FPGA 部署的低延迟和低功耗神经网络的资源利用率，同时保持准确性。

May, 2024

通过约束优化实现神经网络混合精度量化

采用离散约束优化问题和二阶泰勒展开，提出了解决深度神经网络中多精度量化问题的一种高效算法，并在 ImageNet 数据集和各种网络体系结构上得出了比现有方法更优的结果。

Oct, 2021

具有可证明保证的神经网络后训练量化

本研究提出了一种针对神经网络量化的方法，该方法通过量化权重来降低计算成本、内存占用和功耗，并促进权重的稀疏性，使用本方法在 ImageNet 上测试显示准确性的损失很小。

Jan, 2022

一次性权重耦合学习的无需重新训练的模型量化

通过一种一次性训练 - 搜索范式，本文研究了混合精度模型压缩的问题，并提出了一种动态冻结和信息失真缓解技术来优化位宽配置和性能下降。

Jan, 2024

在 FPGA 上使用低精度 Minifloats 和整数进行后训练量化

在这项研究中，我们通过对模型权重和激活函数使用 3 至 8 位的浮点数和整数量化方案，比较了浮点数量化和整数量化的适用性，验证了低精度 minifloats 在一系列精度 - 准确度权衡中相对于整数量化的有效性，并通过 FPGA 型号评估结果，表明整数量化通常是优选选择。

Nov, 2023

使用层间依赖增强 Hessian 矩阵，用于混合精度后训练量化

提出了一种混合精度后训练量化（PTQ）方法，使用二阶信息和层间依赖关系指导双分搜索，以在用户可配置的模型准确度降低范围内找到量化配置。该方法可以降低内存占用并提高延迟，同时保持模型准确性。

Jun, 2023

FxP-QNet: 一种用于混合低精度 DNN 设计的训练后量化器，采用动态定点表示

本文提出一种新的深度神经网络固定点量化框架 (FxP-QNet)，该框架可以在保证网络精度的前提下，根据网络对低精度的需求动态地设计不同精度的量化级别。在基准测试 (ImageNet) 中，模型的内存需求得到了 7.16 倍 - 10.36 倍的压缩，同时准确率只有不到 2% 的损失。

Mar, 2022

反向传播算法的逐张量定点量化

通过精度分配方法，实现神经网络中所有参数的最小化，从而实现固定点训练。针对 CIFAR-10，CIFAR-100 和 SVHN 数据集，对四个网络进行实验验证，证实此方法具有接近最优的精度分配，可以与其他固定点神经网络设计相比较。（The precision assignment methodology reduces the complexity of fixed-point training for neural networks, and its optimality is validated empirically for various datasets and network designs）

Dec, 2018