P$^2$-ViT:完全量化的视觉变换器的二次幂后训练量化和加速
本研究开发了基于Power-of-Two Factor(PTF)和Log-Int-Softmax(LIS)的技术来简化全量化视觉Transformer的推理复杂度,并应用于各种基于Transformer的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
本研究提出了一种名为VAQF的框架,该框架可以在FPGA平台上为量化的ViT模型构建推理加速器,并且可以自动输出所需的量化精度和优化参数设置,以在硬件要求下满足所需的帧速率。通过对基于DeiT-base模型的实验结果的评估,实现表明可以在满足24帧每秒的帧速率要求的情况下使用8位激活量化,以及在使用6位激活量化的情况下可以达到30帧每秒的目标。
Jan, 2022
本文提出I-ViT作为Vision Transformers的整数量化方案,在不使用浮点算数的情况下,通过整数算术和位移来完成计算图的整个计算过程,并使用Shiftmax和ShiftGELU等方法来近似非线性组件,以减少模型复杂性并提高在边缘设备上的有效性,实验结果表明整数量化达到与FP基线相当(甚至略高)的准确率,并且使用TVM在GPU的整数算术单元上实现了3.72-4.11倍的推断加速。
Jul, 2022
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在ImageNet数据集上实现高达80.9%的准确性,并且比全精度对应物超过1.0%的Top-1精度。
Oct, 2022
提出了一种新颖的方法I&S-ViT,用于稳定地进行ViTs的PTQ,包括引入shift-uniform-log2量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。
Nov, 2023
提出了SmoothQuant with bias term (SQ-b)和optimal scaling factor ratio search (OPT-m)方法以及一种多精度后训练量化框架(MPTQ-ViT),在ImageNet数据集上进行的实验表明,与现有方法相比,所提方法在4位和5位量化的ViTs上均取得了显著的准确度提高。
Jan, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024
通过量化和加速高效ViTs的方法,提出了Trio-ViT框架,该框架在可比准确度下获得了可观的FPS和DSP效率提升,解决了Vision Transformers在嵌入式设备上部署困难的问题。
May, 2024
ViT-1.58b是一种新的1.58-bit量化的视觉Transformer模型,通过三值量化的方式来平衡效率和准确性,实现了在存储和计算开销方面的高效扩展。实验证明,ViT-1.58b与全精度ViT相比,在减少存储使用和计算成本方面取得了显著的成果,从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力,并为实际应用中高效模型部署的广泛讨论做出了贡献。
Jun, 2024
提出了一种名为ADFQ-ViT的新型框架,通过引入Per-Patch Outlier-aware Quantizer、Shift-Log2 Quantizer和Attention-score enhanced Module-wise Optimization等方法,对Vision Transformers中的针对post-LayerNorm和post-GELU activations的离散化进行了改进,从而在4位情况下,在图像分类、目标检测和实例分割任务中明显提高了性能。
Jul, 2024