BiViT: 二值化视觉转换器的极度压缩

Nov, 2022

BiViT: 二值化视觉转换器的极度压缩

BiViT: Extremely Compressed Binary Vision Transformer

Yefei He, Zhenyu Lou, Luoming Zhang, Weijia Wu, Bohan Zhuang...

TL;DR本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImageNet 和 ImageNet 中超越现有技术并取得最佳效果。

Abstract

Model binarization can significantly compress model size, reduce energy consumption, and accelerate inference through efficient bit-wise operations. Although binarizing convolutional neural networks have been extensively studied, there is little work on exploring →

binarization transformers softmax attention pretrained model accuracy

发现论文，激发创造

二值视觉 Transformer：高效和准确度的探索

本论文提出了一种名为 BinaryViT 的方法，通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题，使得其在计算和存储资源受限的设备上也能有更好的运行表现。

May, 2023

BinaryViT：将二值化 Transformer 推向卷积模型

本文提出 BinaryViT 来增强二进制 ViT 的表现能力，加入了一些 CNN 结构的操作，包括平均池化层、多个平均池化支路、仿射变换等，实验证明，这使得一个纯二进制 ViT 模型非常具有竞争力。

Jun, 2023

Bi-ViT: 推动视觉 Transformer 量化极限

介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法，并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率，并在 FLOPs 方面获得了显著的理论加速。

May, 2023

针对有限样本的视觉 Transformer 组叠代二值化（GSB）

本文提出了一种新的模型压缩方法，称为 Group Superposition Binarization (GSB)，通过替换复杂张量乘法为简单的位运算，将全精度模型参数和激活表示为仅有 1 位的参数，来解决 Vision Transformer 模型训练样本少易过拟合和计算资源大的问题。针对 Attention 模块和 Value 向量信息丢失的问题，提出了 GSB 技术，并利用知识蒸馏技术缓解了模型压缩所带来的性能下降。在三个数据集的实验中，得到了优异的二进制量化效果。

May, 2023

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

BiT: 坚固的二值化多蒸馏 Transformer

本文提出一种改进的二元转换器方法，通过引入一种新型的弹性二元激活函数、两种二元化方案以及一种逐步压缩高精度模型的方法，实现了在实际精度水平下的完全二元化转换模型，并在 GLUE 语义理解基准测试上取得了接近完全精度 BERT 基线的成果。

May, 2022

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021

ViT-1.58b：1-bit 时代的移动视觉 Transformer

ViT-1.58b 是一种新的 1.58-bit 量化的视觉 Transformer 模型，通过三值量化的方式来平衡效率和准确性，实现了在存储和计算开销方面的高效扩展。实验证明，ViT-1.58b 与全精度 ViT 相比，在减少存储使用和计算成本方面取得了显著的成果，从而突出了极端量化技术在开发可持续的人工智能解决方案方面的潜力，并为实际应用中高效模型部署的广泛讨论做出了贡献。

Jun, 2024