P$^2$-ViT: 完全量化的视觉变换器的二次幂后训练量化和加速
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本研究开发了基于 Power-of-Two Factor(PTF)和 Log-Int-Softmax(LIS)的技术来简化全量化视觉 Transformer 的推理复杂度,并应用于各种基于 Transformer 的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformers(MobileViTv1 和 MobileViTv2)的平均准确性有了显著提高(达到 7.75%),我们将在指定的网址上发布我们的代码。
Mar, 2023
通过量化和加速高效 ViTs 的方法,提出了 Trio-ViT 框架,该框架在可比准确度下获得了可观的 FPS 和 DSP 效率提升,解决了 Vision Transformers 在嵌入式设备上部署困难的问题。
May, 2024
提出了一种新颖的方法 I&S-ViT,用于稳定地进行 ViTs 的 PTQ,包括引入 shift-uniform-log2 量化器(SULQ)和三阶段平滑优化策略(SOS),并通过对多样的视觉任务进行全面评估,证明了其在低位场景下相对于现有的 ViTs PTQ 方法的优越性。
Nov, 2023
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本文提出了一种基于 patch 的混合精度量化方法,用于 ViTs 神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于 ViTs 变得容易。
May, 2023
本文提出 I-ViT 作为 Vision Transformers 的整数量化方案,在不使用浮点算数的情况下,通过整数算术和位移来完成计算图的整个计算过程,并使用 Shiftmax 和 ShiftGELU 等方法来近似非线性组件,以减少模型复杂性并提高在边缘设备上的有效性,实验结果表明整数量化达到与 FP 基线相当(甚至略高)的准确率,并且使用 TVM 在 GPU 的整数算术单元上实现了 3.72-4.11 倍的推断加速。
Jul, 2022
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022