PTQ4ViT:基于双等距量化的视觉 Transformer 后训练量化框架
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformers(MobileViTv1 和 MobileViTv2)的平均准确性有了显著提高(达到 7.75%),我们将在指定的网址上发布我们的代码。
Mar, 2023
本研究开发了基于 Power-of-Two Factor(PTF)和 Log-Int-Softmax(LIS)的技术来简化全量化视觉 Transformer 的推理复杂度,并应用于各种基于 Transformer 的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化,并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异,在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。
Apr, 2024
NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是,在给定量化器的情况下,添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论,NoisyQuant 成功地通过添加增量噪声偏差来改变重尾激活分布并适应给定的量化器。大量实验展示了 NoisyQuant 在使视觉变换器进行 post-training quantization 时可以大幅度提高性能,而且计算成本较小。
Nov, 2022
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024
CPT-V 提出了一种利用对比损失优化量化网络的方法,可以大幅提高已经量化过的 Vision Transformer 网络的准确率,实验结果表明,在极端量化情形下,该方法具有鲁棒性。
Nov, 2022
为了解决 Diffusion Transformers(DiTs)中特定的量化挑战,本文提出了一种特定的 Post-training Quantization(PTQ)方法,称为 PTQ4DiT。通过 Channel-wise Salience Balancing(CSB)和 Spearmen's ρ-guided Salience Calibration(SSC)来解决 DiTs 中存在的通道不平衡和时间变化的挑战,并通过离线重新参数化策略降低了计算成本,实现了对 DiTs 的有效量化到 8 位精度(W8A8),并首次实现了对 4 位权重精度(W4A8)的有效量化。
May, 2024