Bi-ViT: 推动视觉 Transformer 量化极限
本论文提出了一种名为 BinaryViT 的方法,通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题,使得其在计算和存储资源受限的设备上也能有更好的运行表现。
May, 2023
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本文提出 BinaryViT 来增强二进制 ViT 的表现能力,加入了一些 CNN 结构的操作,包括平均池化层、多个平均池化支路、仿射变换等,实验证明,这使得一个纯二进制 ViT 模型非常具有竞争力。
Jun, 2023
ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型,通过三值量化的方式来平衡效率和准确性,实现了在存储和计算开销方面的高效扩展。实验证明,ViT-1.58b 与全精度 ViT 相比,在减少存储使用和计算成本方面取得了显著的成果,从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力,并为实际应用中高效模型部署的广泛讨论做出了贡献。
Jun, 2024
本文提出 I-ViT 作为 Vision Transformers 的整数量化方案,在不使用浮点算数的情况下,通过整数算术和位移来完成计算图的整个计算过程,并使用 Shiftmax 和 ShiftGELU 等方法来近似非线性组件,以减少模型复杂性并提高在边缘设备上的有效性,实验结果表明整数量化达到与 FP 基线相当(甚至略高)的准确率,并且使用 TVM 在 GPU 的整数算术单元上实现了 3.72-4.11 倍的推断加速。
Jul, 2022
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022