用于视觉 Transformer 的高效顺序推理的令牌回收
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
为了解决 Vision Transformers 在计算资源受限环境中的高计算复杂度问题,该研究提出了 IdleViT 方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT 选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT 减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔 ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT 可以将预训练 ViTs 的复杂性降低高达 33%,在只进行 30 个周期的微调之后在 ImageNet 上的准确率降低不超过 0.2%。值得注意的是,在保留比例为 0.5 时,IdleViT 相比于最先进的 EViT 在 DeiT-S 上的准确率更高,且推理速度更快。
Oct, 2023
通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分,通过令牌的分离计算,使用稀疏令牌加速自注意层,并在硬件上保持友好性,构建令牌重建模块以收集和重置分组令牌到序列中的原始位置,这对于预测正确的语义掩码是必要的,我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40%〜60%的 FLOPs,mIoU 的降低在 0.8%以内,并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。
Aug, 2023
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
我们的研究提出了一种方法来优化视觉转换器模型中不相关令牌之间的不必要交互数量,通过将它们分离并通过不同的低成本计算路径发送,同时在训练吞吐量上获得 13% 以上的提升,并在华为 Ascend910A 上维持与基准模型相同级别的分类准确性。
Jan, 2024
使用视觉 Transformer(ViTs)处理图像问题存在显著的计算复杂度,本文提出了一种新的令牌传播控制器(TPC),通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。
Jan, 2024
提出了一种自适应调整视觉转换器(ViT)推理成本的方法 A-ViT,该方法基于自适应计算时间(ACT)重新表述,在不修改网络架构或推理硬件的情况下,通过自动减少处理网络的视觉转换器中的令牌数来实现此目标,并对图像分类任务性能得到了显著改进。
Dec, 2021
本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
通过 Resizable-ViT 模型和 Token-Length Assigner 方法,在保证准确性的前提下,为每个图像分配最小的适当的 token 长度,从而加快 ViT 模型的推理速度,从而显着降低计算成本。
Jul, 2023