用于视觉 Transformer 的高效顺序推理的令牌回收

Nov, 2023

用于视觉 Transformer 的高效顺序推理的令牌回收

Token Recycling for Efficient Sequential Inference with Vision Transformers

Jan Olszewski, Dawid Rymarczyk, Piotr Wójcik, Mateusz Pach, Bartosz Zieliński

TL;DR为了减少 Vision Transformers 的计算效率，我们引入了 TOken REcycling (TORE) 的修改，将 ViT 分为迭代器和聚合器的两部分，以便在序列化推断过程中重复使用结果，并提出了一个附加的训练策略来减少与序列决策相关的计算负担。

Abstract

vision transformers (ViTs) overpass convolutional neural networks in processing incomplete inputs because they do not require the imputation of missing values. Therefore, ViTs are well suited for →

vision transformers convolutional neural networks sequential decision-making token recycling training policy

发现论文，激发创造

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

高效的视觉 Transformer 模型：动态空闲令牌策略

为了解决 Vision Transformers 在计算资源受限环境中的高计算复杂度问题，该研究提出了 IdleViT 方法，通过动态删除图像令牌来改善计算负担，实现了性能和效率之间的卓越折中。在各个层中，IdleViT 选择参与计算的图像令牌子集，并将其余的令牌保持空闲并直接传递给该层的输出，通过在后续层重新选择空闲令牌，IdleViT 减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效，可扩展到金字塔 ViTs，因为没有完全删除的令牌。大量的实验结果表明，IdleViT 可以将预训练 ViTs 的复杂性降低高达 33％，在只进行 30 个周期的微调之后在 ImageNet 上的准确率降低不超过 0.2％。值得注意的是，在保留比例为 0.5 时，IdleViT 相比于最先进的 EViT 在 DeiT-S 上的准确率更高，且推理速度更快。

Oct, 2023

动态令牌传递变换器用于语义分割

通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分，通过令牌的分离计算，使用稀疏令牌加速自注意层，并在硬件上保持友好性，构建令牌重建模块以收集和重置分组令牌到序列中的原始位置，这对于预测正确的语义掩码是必要的，我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40％〜60％的 FLOPs，mIoU 的降低在 0.8％以内，并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。

Aug, 2023

DualToken-ViT：具有双重令牌融合的位置感知高效视觉 Transformer

提出了一种轻量级和高效的视觉变换模型 DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了 DualToken-ViT 的有效性，其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率，而在只有 0.5G 和 1.0G 的 FLOPs 下，我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。

Sep, 2023

SkipViT：使用令牌级别的跳跃连接加速视觉变换

我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量，通过将它们分离并通过不同的低成本计算路径发送，同时在训练吞吐量上获得 13% 以上的提升，并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。

Jan, 2024

高效的视觉 Transformer 的令牌传播控制器

使用视觉 Transformer（ViTs）处理图像问题存在显著的计算复杂度，本文提出了一种新的令牌传播控制器（TPC），通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。

Jan, 2024

AdaViT: 面向高效视觉 Transformer 的自适应 Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法 A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022

适应性记号长度的视觉变换器：将长图像变短

通过 Resizable-ViT 模型和 Token-Length Assigner 方法，在保证准确性的前提下，为每个图像分配最小的适当的 token 长度，从而加快 ViT 模型的推理速度，从而显着降低计算成本。

Jul, 2023