MPTQ-ViT:VisionTransformer 的混合精度后训练量化
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
本文提出了一种基于 patch 的混合精度量化方法,用于 ViTs 神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于 ViTs 变得容易。
May, 2023
本研究开发了基于 Power-of-Two Factor(PTF)和 Log-Int-Softmax(LIS)的技术来简化全量化视觉 Transformer 的推理复杂度,并应用于各种基于 Transformer 的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformers(MobileViTv1 和 MobileViTv2)的平均准确性有了显著提高(达到 7.75%),我们将在指定的网址上发布我们的代码。
Mar, 2023
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化,并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异,在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。
Apr, 2024
通过量化和加速高效 ViTs 的方法,提出了 Trio-ViT 框架,该框架在可比准确度下获得了可观的 FPS 和 DSP 效率提升,解决了 Vision Transformers 在嵌入式设备上部署困难的问题。
May, 2024