高效的视觉 Transformer 的令牌传播控制器
基于图的标记传播方法(GTP)通过将不重要的标记信息传播到与之相关性更大的标记上,从而在降低计算复杂度的同时保持了被剔除标记的重要信息,实现了高效的 Vision Transformers(ViTs)。
Nov, 2023
通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚 Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%,吞吐量提高了 45% 以上,而没有准确性下降。
Oct, 2023
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
为了解决 Vision Transformers 在计算资源受限环境中的高计算复杂度问题,该研究提出了 IdleViT 方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT 选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT 减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔 ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT 可以将预训练 ViTs 的复杂性降低高达 33%,在只进行 30 个周期的微调之后在 ImageNet 上的准确率降低不超过 0.2%。值得注意的是,在保留比例为 0.5 时,IdleViT 相比于最先进的 EViT 在 DeiT-S 上的准确率更高,且推理速度更快。
Oct, 2023
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
本篇论文提出了一种 PSViT 视觉变换器,通过令每个 transformer 层与其相邻层共享注意力映射和减少空间级别上的特征数量来降低冗余,实现更好的速度和准确性
Aug, 2021
为了减少 Vision Transformers 的计算效率,我们引入了 TOken REcycling (TORE) 的修改,将 ViT 分为迭代器和聚合器的两部分,以便在序列化推断过程中重复使用结果,并提出了一个附加的训练策略来减少与序列决策相关的计算负担。
Nov, 2023
本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT,以在嵌入式 FPGA 上实现高效而准确的 ViT 加速,通过显著重复利用现有硬件组件来实现标记选择器,使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块,使模型在硬件上不仅提高了准确性和推理延迟,而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。
Nov, 2022
本研究提出一种迭代和渐进式采样策略,以定位具有区分性的区域,并与 Vision Transformer 结合起来,形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域,从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8%的 top-1 准确性(使用约 4 倍的参数和 10 倍的运算次数)。
Aug, 2021
提出了一种自适应调整视觉转换器(ViT)推理成本的方法 A-ViT,该方法基于自适应计算时间(ACT)重新表述,在不修改网络架构或推理硬件的情况下,通过自动减少处理网络的视觉转换器中的令牌数来实现此目标,并对图像分类任务性能得到了显著改进。
Dec, 2021