Vision Transformer的补丁混合精度量化

May, 2023

Vision Transformer的补丁混合精度量化

Patch-wise Mixed-Precision Quantization of Vision Transformer

Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu

TL;DR本文提出了一种基于patch的混合精度量化方法，用于ViTs神经网络的高效推理，通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本，使混合精度量化应用于ViTs变得容易。

Abstract

As emerging hardware begins to support mixed bit-width arithmetic computation, mixed-precision quantization is widely used to reduce the complexity of neural networks. However, vision transformers (ViTs) require

发现论文，激发创造

FracBits: 通过小数位宽度实现混合精度量化

提出一种新的基于学习的算法，用于在目标计算约束和模型大小下端到端地推导混合精度模型。该方法能够通过逐渐调整模型中每个层/核心的位宽，实现两个连续位宽的分数状态来满足资源约束，使量化的使模型经过量化感知训练，能够最终获得优化的混合精度模型，并且可以与通道剪枝自然结合使用，以更好地分配计算成本。实验结果表明，在 ImageNet 数据集上，我们的最终模型在不同的资源约束下，达到了与之前混合精度量化方法相当或更好的性能。

Jul, 2020

PTQ4ViT：基于双等距量化的视觉Transformer后训练量化框架

本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度，提出了一个高效的框架 PTQ4ViT，实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度（8 位量化的准确度降低小于 0.5%）。

Nov, 2021

FQ-ViT: 完全量化视觉Transformer的后训练量化

本研究开发了基于Power-of-Two Factor（PTF）和Log-Int-Softmax（LIS）的技术来简化全量化视觉Transformer的推理复杂度，并应用于各种基于Transformer的体系结构和基准测试中，以达到更高的性能。

Nov, 2021

面向视觉Transformer的补丁相似度感知无数据量化

提出了PSAQ-ViT，这是一种基于自注意力模块的Patch Similarity Aware数据无关量化框架，可以通过生成“逼真”样本来校准量化参数，从而实现Vision transformers在资源受限设备上的部署。

Mar, 2022

Q-ViT: 准确的、完全量化的低位视觉Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在ImageNet数据集上实现高达80.9％的准确性，并且比全精度对应物超过1.0％的Top-1精度。

Oct, 2022

变异感知视觉变换器量化

该研究提出了一种基于知识蒸馏的变异感知量化方法，可显著提高Vision Transformers模型在经过量化的情况下的准确性和训练效率。

Jul, 2023

I&S-ViT：推进Post-Training ViTs量化极限的包容稳定方法

提出了一种新颖的方法I&S-ViT，用于稳定地进行ViTs的PTQ，包括引入shift-uniform-log2量化器（SULQ）和三阶段平滑优化策略（SOS），并通过对多样的视觉任务进行全面评估，证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。

Nov, 2023

LRP-QViT：基于逐层相关传播的混合精度视觉Transformer量化

LRP-QViT 是一种基于可解释性的方法，为不同层分配混合精度位分配，该方法通过将局部相关性分数传播到所有层，计算层的贡献分数，进而通过剪切通道的量化消除严重的通道间差异。该方法在 ViT、DeiT 和 Swin transformer 模型上进行实验验证，结果表明在 4 位和 6 位量化情况下，我们的后训练量化方法超过了现有模型。

Jan, 2024

MPTQ-ViT：VisionTransformer的混合精度后训练量化

提出了SmoothQuant with bias term (SQ-b)和optimal scaling factor ratio search (OPT-m)方法以及一种多精度后训练量化框架(MPTQ-ViT)，在ImageNet数据集上进行的实验表明，与现有方法相比，所提方法在4位和5位量化的ViTs上均取得了显著的准确度提高。

Jan, 2024

P$^2$-ViT:完全量化的视觉变换器的二次幂后训练量化和加速

Vision Transformers（ViTs）在计算机视觉任务中表现卓越，但它们在资源受限设备上的部署受到内存消耗和计算密集性的挑战。为了解决这个限制，我们提出了第一个适用于P2-ViT的后训练量化和加速框架，通过专门的量化方案有效量化ViTs，并设计硬件加速器和数据流来提高效率。

May, 2024