LRP-QViT:基于逐层相关传播的混合精度视觉 Transformer 量化
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本文提出了一种基于 patch 的混合精度量化方法,用于 ViTs 神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于 ViTs 变得容易。
May, 2023
本研究开发了基于 Power-of-Two Factor(PTF)和 Log-Int-Softmax(LIS)的技术来简化全量化视觉 Transformer 的推理复杂度,并应用于各种基于 Transformer 的体系结构和基准测试中,以达到更高的性能。
Nov, 2021
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
该研究提出利用量化器中的可学习参数作为量化精度重要指标,通过一次整数线性规划来确定混合精度量化的最佳位宽以提高时间效率,并在多种模型中实现了 SOTA 精度。
Mar, 2022
为了解决 vision transformers 在移动设备上的高计算需求问题,我们提出了一种新的 post-training quantization 方法,成功地让 efficient hybrid vision transformers(MobileViTv1 和 MobileViTv2)的平均准确性有了显著提高(达到 7.75%),我们将在指定的网址上发布我们的代码。
Mar, 2023
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantization and ViDiT-Q-MP achieves W4A8 with negligible visual quality degradation, resulting in memory optimization and latency speedup.
Jun, 2024
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
后训练量化(PTQ)是一种高效的模型压缩技术,它使用一个小的校准样本集对预训练的全精度模型进行量化,而无需重新训练。我们提出了一种针对视觉变换器(ViTs)的实例感知分组量化技术(IGQ-ViT),它动态地将激活图的通道分割为多个组,以使每个组内的激活具有相似的统计特性。我们的方法扩展到对令牌之间的 softmax 注意力进行量化,并通过调整每个层的组数来最小化量化模型与全精度模型之间的差异,在位运算约束下取得了良好效果。我们在图像分类、目标检测和实例分割等领域进行了广泛的实验证明了我们的方法的有效性。
Apr, 2024