针对有限样本的视觉 Transformer 组叠代二值化（GSB）

May, 2023

针对有限样本的视觉 Transformer 组叠代二值化（GSB）

GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples

Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong

TL;DR本文提出了一种新的模型压缩方法，称为 Group Superposition Binarization (GSB)，通过替换复杂张量乘法为简单的位运算，将全精度模型参数和激活表示为仅有 1 位的参数，来解决 Vision Transformer 模型训练样本少易过拟合和计算资源大的问题。针对 Attention 模块和 Value 向量信息丢失的问题，提出了 GSB 技术，并利用知识蒸馏技术缓解了模型压缩所带来的性能下降。在三个数据集的实验中，得到了优异的二进制量化效果。

Abstract

Affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method,model →

vision transformer model compression binarization attention module gradient calculation

发现论文，激发创造

二值视觉 Transformer：高效和准确度的探索

本论文提出了一种名为 BinaryViT 的方法，通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题，使得其在计算和存储资源受限的设备上也能有更好的运行表现。

May, 2023

BiViT: 二值化视觉转换器的极度压缩

本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。

Nov, 2022

Bi-ViT: 推动视觉 Transformer 量化极限

介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

May, 2023

BinaryViT：将二值化 Transformer 推向卷积模型

本文提出 BinaryViT 来增强二进制 ViT 的表现能力，加入了一些 CNN 结构的操作，包括平均池化层、多个平均池化支路、仿射变换等，实验证明，这使得一个纯二进制 ViT 模型非常具有竞争力。

Jun, 2023

变异感知视觉变换器量化

该研究提出了一种基于知识蒸馏的变异感知量化方法，可显著提高 Vision Transformers 模型在经过量化的情况下的准确性和训练效率。

Jul, 2023

MPTQ-ViT：VisionTransformer 的混合精度后训练量化

提出了 SmoothQuant with bias term (SQ-b) 和 optimal scaling factor ratio search (OPT-m) 方法以及一种多精度后训练量化框架 (MPTQ-ViT)，在 ImageNet 数据集上进行的实验表明，与现有方法相比，所提方法在 4 位和 5 位量化的 ViTs 上均取得了显著的准确度提高。

Jan, 2024

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

ViT-1.58b：1-bit 时代的移动视觉 Transformer

ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型，通过三值量化的方式来平衡效率和准确性，实现了在存储和计算开销方面的高效扩展。实验证明，ViT-1.58b 与全精度 ViT 相比，在减少存储使用和计算成本方面取得了显著的成果，从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力，并为实际应用中高效模型部署的广泛讨论做出了贡献。

Jun, 2024

利用空间和频率的二值化文件处理

基于快速傅里叶卷积，提出了一种能够处理文档图像二值化问题的替代方案，克服了标准卷积在建模全局信息方面的局限性，同时比 Vision Transformer 需要更少的参数。

Apr, 2024

基于块选择性重编程的视觉 Transformer 设备端训练

通过研究现有的内置训练方法的局限性，本文提出了基于块选择性重编程（BSR）的方法，在部分冻结层的基础上，根据自注意力得分从预训练模型中选择性地丢弃令牌，有效地减少训练内存和计算成本，同时保持相似的准确性，适用于多任务学习场景。

Mar, 2024