适应性记号长度的视觉变换器：将长图像变短

Jul, 2023

适应性记号长度的视觉变换器：将长图像变短

Make A Long Image Short: Adaptive Token Length for Vision Transformers

Qiqi Zhou, Yichen Zhu

TL;DR通过 Resizable-ViT 模型和 Token-Length Assigner 方法，在保证准确性的前提下，为每个图像分配最小的适当的 token 长度，从而加快 ViT 模型的推理速度，从而显着降低计算成本。

Abstract

The vision transformer is a model that breaks down each image into a sequence of tokens with a fixed length and processes them similarly to words in natural language processing. Although increasing the number of tokens typically results in better performance, it also leads to a conside

发现论文，激发创造

Tokens-to-Token ViT: 在ImageNet上从头开始训练视觉Transformer模型

本论文提出了一种名为T2T-ViT的Tokens转到Tokens的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在ImageNet数据集上取得了优秀的表现。

Jan, 2021

动态Transformer用于高效图像识别：并非所有图像都相当于16x16个单词

本文提出了一种名为Dynamic Transformer的方法，通过将多个变压器级联并在测试时以自适应方式逐个激活它们，自动配置每个输入图像的适当标记数。在ImageNet，CIFAR-10和CIFAR-100上的广泛实证结果表明，我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。

May, 2021

Evo-ViT: 动态视觉Transformer的慢-快标记演化

Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.

Aug, 2021

AdaViT: 面向高效视觉Transformer的自适应Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

通过Token重组加速视觉Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在Vision Transformer模型的前向推理过程中重新组织图像tokens的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022

从标记稀疏化视角提高视觉Transformer的效率

本文介绍了一种基于语义标记的ViT模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行attention的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

MSViT：用于视觉 Transformer 的动态混合尺度分词

本文提出了一种动态混合尺度的Vision Transformers模式，通过引入条件门控机制，智能选择每个图像区域的最佳令牌规模进行处理，从而提高图像分类的精度和效率。

Jul, 2023

DualToken-ViT：具有双重令牌融合的位置感知高效视觉Transformer

提出了一种轻量级和高效的视觉变换模型DualToken-ViT，它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构，并使用位置感知的全局标记来丰富全局信息，并改进了图像的位置信息，通过在图像分类、物体检测和语义分割任务上进行广泛实验，展示了DualToken-ViT的有效性，其在ImageNet-1K数据集上取得了75.4%和79.4%的准确率，而在只有0.5G和1.0G的FLOPs下，我们的1.0G FLOPs的模型的性能超过了使用全局标记的LightViT-T模型0.7%。

Sep, 2023

高效的视觉Transformer的令牌传播控制器

使用视觉Transformer（ViTs）处理图像问题存在显著的计算复杂度，本文提出了一种新的令牌传播控制器（TPC），通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。

Jan, 2024

通过递归分配实现自适应长度图像标记

本研究解决了当前视觉系统对图像采用固定长度表示的问题，提出了一种学习可变长度标记表示的方法。通过递归处理2D图像标记的编码-解码架构，实现了根据图像信息内容自适应调整标记数量，从而显示出在对象和部分发现方面的潜力。

Nov, 2024