CPT-V:一种对视觉 Transformer 进行后训练量化的对比方法
本文介绍了一种有效的后训练量化算法,以降低视觉变换器的内存存储和计算成本,并在多个基准模型和数据集上证明了所提出的方法的有效性,在 ImageNet 数据集上使用 DeiT-B 模型可获得约 8 位量化的 81.29% top-1 精度。
Jun, 2021
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本文提出了双均匀量化方法和用 Hessian 指导的指标方法来优化视觉转换器上量化的准确度,提出了一个高效的框架 PTQ4ViT,实验证明量化视觉转换器在 ImageNet 分类任务上能够实现接近无损的预测准确度(8 位量化的准确度降低小于 0.5%)。
Nov, 2021
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformers(MobileViTv1 和 MobileViTv2)的平均准确性有了显著提高(达到 7.75%),我们将在指定的网址上发布我们的代码。
Mar, 2023
本研究开发了基于 Power-of-Two Factor(PTF)和 Log-Int-Softmax(LIS)的技术来简化全量化视觉 Transformer 的推理复杂度,并应用于各种基于 Transformer 的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化,并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异,在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。
Apr, 2024
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
本文提出了一种基于 patch 的混合精度量化方法,用于 ViTs 神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于 ViTs 变得容易。
May, 2023
量化方法在深度神经网络的高效部署中变得至关重要,深度神经网络经常需要量化以便在计算中使用固定点操作代替浮点操作。本文探讨了一种基于梯度的后训练量化方法(GPTQ),证明了该方法在选择权重、特征增强、校准集等方面具有一定鲁棒性,并提出了设计更高效、可扩展的 GPTQ 方法的准则,最后还提出了一种基于重要性的混合精度技术,这些准则和技术共同促进了已有的 GPTQ 方法和网络的性能改进,为设计可扩展且有效的量化方法开辟了新的可能。
Aug, 2023