SPViT:通过软件 Token 剪枝加速视觉 Transformer
本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT,以在嵌入式 FPGA 上实现高效而准确的 ViT 加速,通过显著重复利用现有硬件组件来实现标记选择器,使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块,使模型在硬件上不仅提高了准确性和推理延迟,而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。
Nov, 2022
提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。
Jun, 2021
该论文介绍了一种新的块结构剪枝方法,用于解决视觉转换器的资源密集问题,通过均衡的权衡准确性和硬件加速,使其在保持高性能的同时减少资源需求。实验结果表明,该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能,并在精度保持和功耗节省之间实现了显著的平衡。
Jul, 2024
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将 Vision transformers 稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
提出了一种综合算法 - 硬件设计,通过同时进行静态权重剪枝和动态令牌剪枝,加速在 FPGA 上的 ViT(Vision Transformers)模型,以减少计算复杂性和模型大小。
Mar, 2024
采用新型 Token Pruning & Squeezing 模块(TPS)可以更高效地压缩视觉转换器,提高模型的计算速度和图像分类精度。
Apr, 2023
本文提出了一种级联修剪框架,名为 CP-ViT,通过动态预测 Transformer 模型中信息含量低的部分,可以使基于 Vision transformer 的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021
通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚 Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%,吞吐量提高了 45% 以上,而没有准确性下降。
Oct, 2023