Bi-ViT: 推动视觉 Transformer 量化极限

May, 2023

Bi-ViT: 推动视觉 Transformer 量化极限

Bi-ViT: Pushing the Limit of Vision Transformer Quantization

Yanjing Li, Sheng Xu, Mingbao Lin, Xianbin Cao, Chuanjian Liu...

TL;DR介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

Abstract

vision transformers (ViTs) quantization offers a promising prospect to facilitate deploying large pre-trained networks on resource-limited devices. Fully-binarized ViTs (Bi-ViT) that pushes the →

vision transformers quantization binarized vit attention distortion distillation

发现论文，激发创造

二值视觉 Transformer：高效和准确度的探索

本论文提出了一种名为 BinaryViT 的方法，通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题，使得其在计算和存储资源受限的设备上也能有更好的运行表现。

May, 2023

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

BiViT: 二值化视觉转换器的极度压缩

本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。

Nov, 2022

MPTQ-ViT：VisionTransformer 的混合精度后训练量化

提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT)，在 ImageNet 数据集上进行的实验表明，与现有方法相比，所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。

Jan, 2024

BinaryViT：将二值化 Transformer 推向卷积模型

本文提出 BinaryViT 来增强二进制 ViT 的表现能力，加入了一些 CNN 结构的操作，包括平均池化层、多个平均池化支路、仿射变换等，实验证明，这使得一个纯二进制 ViT 模型非常具有竞争力。

Jun, 2023

ViT-1.58b：1-bit 时代的移动视觉 Transformer

ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型，通过三值量化的方式来平衡效率和准确性，实现了在存储和计算开销方面的高效扩展。实验证明，ViT-1.58b 与全精度 ViT 相比，在减少存储使用和计算成本方面取得了显著的成果，从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力，并为实际应用中高效模型部署的广泛讨论做出了贡献。

Jun, 2024

变异感知视觉变换器量化

该研究提出了一种基于知识蒸馏的变异感知量化方法，可显著提高 Vision Transformers 模型在经过量化的情况下的准确性和训练效率。

Jul, 2023

I-ViT：整数量化优化视觉 Transformer 推理

本文提出 I-ViT 作为 Vision Transformers 的整数量化方案，在不使用浮点算数的情况下，通过整数算术和位移来完成计算图的整个计算过程，并使用 Shiftmax 和 ShiftGELU 等方法来近似非线性组件，以减少模型复杂性并提高在边缘设备上的有效性，实验结果表明整数量化达到与 FP 基线相当（甚至略高）的准确率，并且使用 TVM 在 GPU 的整数算术单元上实现了 3.72-4.11 倍的推断加速。

Jul, 2022

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022