自瘦身视觉 Transformer

ECCVNov, 2021

Self-slimmed Vision Transformer

Zhuofan Zong, Kunchang Li, Guanglu Song, Yali Wang, Yu Qiao...

TL;DR该研究提出了一种基于 Token Slimming Module 和 Feature Recalibration Distillation 的自我瘦身学习方法（SiT），能够大幅减少 Vision Transformers 的计算负担，同时不会对其分类性能产生太大影响，并在 ImageNet 数据集上实现了新的最佳性能。

Abstract

vision transformers (ViTs) have become the popular structures and outperformed convolutional neural networks (CNNs) on various vision tasks. However, such powerful transformers bring a huge computation burden, because of the exhausting token-to-token comparison. The previous works focu

vision transformers token slimming module feature recalibration distillation image classification performance

发现论文，激发创造

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

SkipViT：使用令牌级别的跳跃连接加速视觉变换

我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量，通过将它们分离并通过不同的低成本计算路径发送，同时在训练吞吐量上获得 13% 以上的提升，并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。

Jan, 2024

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

视觉 Transformer 瘦身：连续优化空间中的多维度搜索

本文介绍了一种名为 ViT-Slim 的视觉转换器压缩框架，基于可学习和统一的 l1 稀疏性约束搜索多个维度的子结构，通过预算阈值得到压缩后的模型，试验结果表明，ViT-Slim 可以在保持较高图像分类准确率的同时，将参数和 FLOP 压缩至 40%。

Jan, 2022

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022