高效视觉 Transformer 的自适应标记采样

ECCVNov, 2021

高效视觉 Transformer 的自适应标记采样

Adaptive Token Sampling For Efficient Vision Transformers

Mohsen Fayyaz, Soroush Abbasi Koohpayegani, Farnoush Rezaei Jafari, Sunando Sengupta, Hamid Reza Vaezi Joze...

TL;DR本文介绍了一种不需要参数调整的自适应 Token 采样器模块，该模块可以插入任何现有的视觉转换模型中，通过对重要的 Token 进行评分和自适应抽样，使得 Token 数量不再是固定的，而是根据每个输入图像的不同而变化，从而将视觉转换模型转换为更加高效的模型，通过在多个 SOTA 视觉转换器中添加我们提出的模块，我们的方法减少了 GFLOPs 并提高了 ImageNet，Kinetics-400 和 Kinetics-600 数据集的准确性。

Abstract

While state-of-the-art vision transformer models achieve promising results in image classification, they are computationally expensive and require many GFLOPs. Although the GFLOPs of a →

vision transformer adaptive token sampler gflops reduction image classification video classification

发现论文，激发创造

AdaViT: 面向高效视觉 Transformer 的自适应 Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法 A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

具有渐进采样的视觉 Transformer

本研究提出一种迭代和渐进式采样策略，以定位具有区分性的区域，并与 Vision Transformer 结合起来，形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域，从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8％的 top-1 准确性（使用约 4 倍的参数和 10 倍的运算次数）。

Aug, 2021

动态令牌传递变换器用于语义分割

通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分，通过令牌的分离计算，使用稀疏令牌加速自注意层，并在硬件上保持友好性，构建令牌重建模块以收集和重置分组令牌到序列中的原始位置，这对于预测正确的语义掩码是必要的，我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40％〜60％的 FLOPs，mIoU 的降低在 0.8％以内，并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。

Aug, 2023

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

自瘦身视觉 Transformer

该研究提出了一种基于 Token Slimming Module 和 Feature Recalibration Distillation 的自我瘦身学习方法（SiT），能够大幅减少 Vision Transformers 的计算负担，同时不会对其分类性能产生太大影响，并在 ImageNet 数据集上实现了新的最佳性能。

Nov, 2021

DynamicViT：动态 Token 稀疏化的高效视觉 Transformers

提出了一种动态的、基于输入的 Token 稀疏化框架，通过阈值删除多余的信息元素，并通过自注意力网络的特性，使其仍然具有硬件友好性。在保证精度的同时，相比现有 CNN 和 Transformer 模型，通过分层删减 66% 的输入元素，可以大大减少 FLOPs、提高吞吐量。

Jun, 2021

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

S-Adapter: 使用统计标记将视觉变换器泛化为面部防冒名识别

该研究提出了一种基于 Efficient Parameter Transfer Learning (EPTL) 范 Paradigm 的面部反欺骗 (Face Anti-Spoofing，FAS) 方法，通过在预训练的 Vision Transformer 模型中插入适配器模块，并在训练过程中更新适配器，从而在零样本和少样本的跨域测试中实现了显著的改进，超过了多个基准测试的最新方法。

Sep, 2023

动态空间稀疏化：用于高效视觉 Transformer 和卷积神经网络的优化

本文提出了一种通过利用视觉数据中的空间稀疏性进行模型加速的新方法，该方法基于所提出的动态令牌稀疏化框架，并通过自适应和不对称计算等方式推广到各种体系结构中，通过对不重要的特征使用轻量级快速路径和对更重要位置使用更具表现力的慢速路径，可以显著减少总体计算量，实验结果表明动态空间稀疏化为模型加速提供了新的更有效的解决方案。

Jul, 2022

ToSA：用于高效视觉 Transformer 的令牌选择性注意力

本研究提出了一种新颖的令牌选择性注意力方法，即 ToSA，它可以识别需要参与注意力的令牌以及可以跳过变换器层的令牌。通过应用 ToSA，我们能够显著减少计算成本，同时在 ImageNet 分类基准上保持准确性，并在 NYU Depth V2 的密集预测任务中验证了我们可以使用较轻的主干模型实现类似的深度预测准确性。

Jun, 2024