AdaViT: 面向高效视觉Transformer的自适应Token
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021
本研究提出了一种称为NViT的基于Hessian的全局结构裁剪方法,能够比以往更高效地利用ViT模型的参数,使得NViT-Base在ImageNet-1K数据集上具备了比DeiT-Base更高的准确率、更低的FLOPs和参数数量以及更快的运行速度。
Oct, 2021
本文提出了AdaViT,一个自适应的计算框架,旨在提高视觉变换器的推理效率,而只有0.8%的准确率下降,并在不同的计算预算条件下实现了良好的效率/准确性平衡。
Nov, 2021
本文主要从实际应用的角度重新审视Transformer,并将硬件延迟作为衡量计算效率的指标,提出一系列针对TensorRT的网络设计实践指南,并给出了一家TRT-ViT的网络模型,实验表明在不同的视觉任务中,TRT-ViT在延迟/准确性的权衡方面显著优于现有的ConvNets和Vision Transformers。
May, 2022
本文介绍了一种基于语义标记的ViT模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行attention的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
通过 Resizable-ViT 模型和 Token-Length Assigner 方法,在保证准确性的前提下,为每个图像分配最小的适当的 token 长度,从而加快 ViT 模型的推理速度,从而显着降低计算成本。
Jul, 2023
通过在视觉Transformer模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT在ImageNet数据集上使DeiT-S的FLOPs降低了37%,吞吐量提高了45%以上,而没有准确性下降。
Oct, 2023
为了解决Vision Transformers在计算资源受限环境中的高计算复杂度问题,该研究提出了IdleViT方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT可以将预训练ViTs的复杂性降低高达33%,在只进行30个周期的微调之后在ImageNet上的准确率降低不超过0.2%。值得注意的是,在保留比例为0.5时,IdleViT相比于最先进的EViT在DeiT-S上的准确率更高,且推理速度更快。
Oct, 2023
使用视觉Transformer(ViTs)处理图像问题存在显著的计算复杂度,本文提出了一种新的令牌传播控制器(TPC),通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。
Jan, 2024
LookupViT通过压缩高分辨率的令牌以减少Vision Transformers的推理成本,并通过双向交叉注意机制实现低分辨率和高分辨率令牌之间的信息共享。通过应用于多个领域的实证研究,LookupViT在减少FLOPs的同时提高了准确性和对图像分类的稳健性和泛化性能。
Jul, 2024