Vision Transformer的补丁混合精度量化
提出一种新的基于学习的算法,用于在目标计算约束和模型大小下端到端地推导混合精度模型。该方法能够通过逐渐调整模型中每个层/核心的位宽,实现两个连续位宽的分数状态来满足资源约束,使量化的使模型经过量化感知训练,能够最终获得优化的混合精度模型,并且可以与通道剪枝自然结合使用,以更好地分配计算成本。实验结果表明,在 ImageNet 数据集上,我们的最终模型在不同的资源约束下,达到了与之前混合精度量化方法相当或更好的性能。
Jul, 2020
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
本研究开发了基于Power-of-Two Factor(PTF)和Log-Int-Softmax(LIS)的技术来简化全量化视觉Transformer的推理复杂度,并应用于各种基于Transformer的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
提出了PSAQ-ViT,这是一种基于自注意力模块的Patch Similarity Aware数据无关量化框架,可以通过生成“逼真”样本来校准量化参数,从而实现Vision transformers在资源受限设备上的部署。
Mar, 2022
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在ImageNet数据集上实现高达80.9%的准确性,并且比全精度对应物超过1.0%的Top-1精度。
Oct, 2022
提出了一种新颖的方法I&S-ViT,用于稳定地进行ViTs的PTQ,包括引入shift-uniform-log2量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。
Nov, 2023
LRP-QViT 是一种基于可解释性的方法,为不同层分配混合精度位分配,该方法通过将局部相关性分数传播到所有层,计算层的贡献分数,进而通过剪切通道的量化消除严重的通道间差异。该方法在 ViT、DeiT 和 Swin transformer 模型上进行实验验证,结果表明在 4 位和 6 位量化情况下,我们的后训练量化方法超过了现有模型。
Jan, 2024
提出了SmoothQuant with bias term (SQ-b)和optimal scaling factor ratio search (OPT-m)方法以及一种多精度后训练量化框架(MPTQ-ViT),在ImageNet数据集上进行的实验表明,与现有方法相比,所提方法在4位和5位量化的ViTs上均取得了显著的准确度提高。
Jan, 2024
Vision Transformers(ViTs)在计算机视觉任务中表现卓越,但它们在资源受限设备上的部署受到内存消耗和计算密集性的挑战。为了解决这个限制,我们提出了第一个适用于P2-ViT的后训练量化和加速框架,通过专门的量化方案有效量化ViTs,并设计硬件加速器和数据流来提高效率。
May, 2024