视觉Transformer后训练量化的错误减少
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
NoisyQuant 是一种用于视觉变换器 post-training activation 量化性能增强的量化器不可知增强方法。它的理论是,在给定量化器的情况下,添加一个固定的均匀噪声偏差可以在可证明的条件下显着降低量化误差。基于这个理论,NoisyQuant 成功地通过添加增量噪声偏差来改变重尾激活分布并适应给定的量化器。大量实验展示了 NoisyQuant 在使视觉变换器进行 post-training quantization 时可以大幅度提高性能,而且计算成本较小。
Nov, 2022
提出了一种新颖的方法I&S-ViT,用于稳定地进行ViTs的PTQ,包括引入shift-uniform-log2量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。
Nov, 2023
提出了SmoothQuant with bias term (SQ-b)和optimal scaling factor ratio search (OPT-m)方法以及一种多精度后训练量化框架(MPTQ-ViT),在ImageNet数据集上进行的实验表明,与现有方法相比,所提方法在4位和5位量化的ViTs上均取得了显著的准确度提高。
Jan, 2024
提出了一种新型的后训练量化框架RepQuant,通过量化推理解耦合范式,采用复杂的量化器进行量化过程,采用简化的量化器进行推理过程,同时将量化标度重新参数化,以确保准确的量化和高效的推理,并通过集成量化权重重构进一步提高性能限制,经过广泛的实验验证在不同大规模变压器变体上在视觉、语言和多模态转换任务中取得了显著的性能优势。
Feb, 2024
为了解决 Diffusion Transformers(DiTs)中特定的量化挑战,本文提出了一种特定的 Post-training Quantization(PTQ)方法,称为 PTQ4DiT。通过 Channel-wise Salience Balancing(CSB)和 Spearmen's ρ-guided Salience Calibration(SSC)来解决 DiTs 中存在的通道不平衡和时间变化的挑战,并通过离线重新参数化策略降低了计算成本,实现了对 DiTs 的有效量化到 8 位精度(W8A8),并首次实现了对 4 位权重精度(W4A8)的有效量化。
May, 2024
本文通过分析深入探讨原因,并提出了MGRQ(混合粒度重构量化)作为解决方案以解决此问题。MGRQ引入了一种混合粒度重构方法来提高PTQ的性能,并通过引入Extra-Block全局监督和Intra-Block本地监督,构建了优化的块重构模型。通过多种ViT模型进行的广泛实验证明了MGRQ的有效性,尤其在低位量化下表现出稳健的性能,从而提高了量化模型的实用性。
Jun, 2024
提出了一种名为ADFQ-ViT的新型框架,通过引入Per-Patch Outlier-aware Quantizer、Shift-Log2 Quantizer和Attention-score enhanced Module-wise Optimization等方法,对Vision Transformers中的针对post-LayerNorm和post-GELU activations的离散化进行了改进,从而在4位情况下,在图像分类、目标检测和实例分割任务中明显提高了性能。
Jul, 2024
本研究针对视觉变换器(ViTs)在后训练量化(PTQ)中面临的准确性下降问题,提出了一种新的量化方法DopQ-ViT。该方法引入了分布友好的Tan量化器(TanQ)和优化的缩放因子搜索(SOSF),有效解决了后Softmax激活的能力法则分布适应性不足和 LayerNorm 后激活的异常值影响,从而显著提升了低比特设置下的量化模型性能。
Aug, 2024