本文提出一种名为 EasyQuant (EQ) 的简单有效的后训练量化方法,通过尺度优化来获得类似于基于训练方法的精度。具体地,我们针对卷积输出的所有层交替优化权重和激活的规模,以进一步获取高量化精度。然后,我们将位宽降低到 INT7,同时采用 INT16 中间存储和整数 Winograd 卷积实现加速推断。各种计算机视觉任务的实验结果表明,EQ 优于 TensorRT 方法,并且在经过 7 位宽后训练可达到接近 INT8 的精度。
Jun, 2020
本研究提出了第一种实用的 4 位后训练量化方法,不涉及训练经过量化模型(微调),也不需要完整数据集的可用性。我们针对激活和权重的量化提出了三种互补方法,以在张量层面上最小化量化误差,并取得了几个百分点少于各种卷积模型现有技术水平基准值的准确性。
Oct, 2018
该论文提出了一种基于量化的后训练量化流程,无需重新训练即可加速深度神经网络的推理,并得到了在 ImageNet 上 6 位的 Top-1 准确率增加 2.2% 的结果。
Oct, 2022
本研究提出了一种有效而实惠的后训练量化方法,ZeroQuant,用于压缩大型 Transformer-based 模型。ZeroQuant 采用细粒度硬件友好量化、层内知识蒸馏算法、优化的量化系统等三个主要组成部分,能够在尽可能减少精度损失的情况下实现模型压缩和性能提升。
Jun, 2022
本文提出了一种基于分段线性量化的方法,通过最小化量化误差来确定最优的分界点,解决了现有量化方法在低位宽下性能显著下降的问题,在图像分类、语义分割和物体检测等方面表现优异。
Jan, 2020
本篇论文讨论了深度神经网络量化的训练过程,提出了一种对称、无偏、对数化的量化方法,能够达到新的四位量化水平,有效地减少了量化过程的计算开销,同时在 ResNet50 on ImageNet 中实现了 1.1% 的降低率。
Dec, 2021
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
本文研究使用后训练量化方法达到低于 8 位的精度损失和模型压缩,采用分层次优化参数和整数规划方案,性能在视觉和文本模型上最优。
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB GPU 上实现无损的准确度,并且相较于在两张 A100 40GB GPUs 上部署的 FP16 模型,能够提高 1.9 至 4.0 倍的吞吐量,每个 token 的延迟仅为 FP16 模型的 68%。这是已知的大语言模型 4 位权重量化的最先进方法。
Dec, 2023
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在 ImageNet 上测试显示准确性的损失很小。
Jan, 2022