适应性记号长度的视觉变换器:将长图像变短
本论文提出了一种名为T2T-ViT的Tokens转到Tokens的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在ImageNet数据集上取得了优秀的表现。
Jan, 2021
本文提出了一种名为Dynamic Transformer的方法,通过将多个变压器级联并在测试时以自适应方式逐个激活它们,自动配置每个输入图像的适当标记数。在ImageNet,CIFAR-10和CIFAR-100上的广泛实证结果表明,我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。
May, 2021
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021
提出了一种自适应调整视觉转换器(ViT)推理成本的方法A-ViT,该方法基于自适应计算时间(ACT)重新表述,在不修改网络架构或推理硬件的情况下,通过自动减少处理网络的视觉转换器中的令牌数来实现此目标,并对图像分类任务性能得到了显著改进。
Dec, 2021
本论文提出了一种在Vision Transformer模型的前向推理过程中重新组织图像tokens的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
本文介绍了一种基于语义标记的ViT模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行attention的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
本文提出了一种动态混合尺度的Vision Transformers模式,通过引入条件门控机制,智能选择每个图像区域的最佳令牌规模进行处理,从而提高图像分类的精度和效率。
Jul, 2023
提出了一种轻量级和高效的视觉变换模型DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了DualToken-ViT的有效性,其在ImageNet-1K数据集上取得了75.4%和79.4%的准确率,而在只有0.5G和1.0G的FLOPs下,我们的1.0G FLOPs的模型的性能超过了使用全局标记的LightViT-T模型0.7%。
Sep, 2023
使用视觉Transformer(ViTs)处理图像问题存在显著的计算复杂度,本文提出了一种新的令牌传播控制器(TPC),通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。
Jan, 2024
本研究解决了当前视觉系统对图像采用固定长度表示的问题,提出了一种学习可变长度标记表示的方法。通过递归处理2D图像标记的编码-解码架构,实现了根据图像信息内容自适应调整标记数量,从而显示出在对象和部分发现方面的潜力。
Nov, 2024