二值视觉 Transformer:高效和准确度的探索
本文提出 BinaryViT 来增强二进制 ViT 的表现能力,加入了一些 CNN 结构的操作,包括平均池化层、多个平均池化支路、仿射变换等,实验证明,这使得一个纯二进制 ViT 模型非常具有竞争力。
Jun, 2023
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。
Nov, 2022
本文提出了一种新的模型压缩方法,称为 Group Superposition Binarization (GSB),通过替换复杂张量乘法为简单的位运算,将全精度模型参数和激活表示为仅有 1 位的参数,来解决 Vision Transformer 模型训练样本少易过拟合和计算资源大的问题。针对 Attention 模块和 Value 向量信息丢失的问题,提出了 GSB 技术,并利用知识蒸馏技术缓解了模型压缩所带来的性能下降。在三个数据集的实验中,得到了优异的二进制量化效果。
May, 2023
ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型,通过三值量化的方式来平衡效率和准确性,实现了在存储和计算开销方面的高效扩展。实验证明,ViT-1.58b 与全精度 ViT 相比,在减少存储使用和计算成本方面取得了显著的成果,从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力,并为实际应用中高效模型部署的广泛讨论做出了贡献。
Jun, 2024
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT),在 ImageNet 数据集上进行的实验表明,与现有方法相比,所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。
Jan, 2024
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了一种基于激活感知的模型压缩方法,通过使用不同层的低秩张量逼近来减少 Vision Transformers(ViTs)的参数数量,克服了内存限制,实现在内存受限环境中嵌入 ViTs 而不影响其性能。
Feb, 2024