通过静态和动态修剪在 FPGA 上加速 ViT 推理
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
本文提出了一种硬件高效的图像自适应标记修剪框架 HeatViT,以在嵌入式 FPGA 上实现高效而准确的 ViT 加速,通过显著重复利用现有硬件组件来实现标记选择器,使用固定点量化和多阶段训练策略来优化插入标记选择器的变压器块,使模型在硬件上不仅提高了准确性和推理延迟,而且还可在与现有计算成本相似的情况下获得更高的准确性或在与相似模型准确性相似的情况下实现更高的计算量减少。
Nov, 2022
通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚 Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%,吞吐量提高了 45% 以上,而没有准确性下降。
Oct, 2023
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
本研究探究了基于图像分类方法的 Token 剪枝技术在目标检测和实例分割中的应用,提出了四种见解,包括:应在特征映射中保留 Token、可重激活过去剪枝的 Token 以提高模型性能、动态剪枝率比固定剪枝率更好、简单的 2 层 MLP 能有效地剪枝 Token。实验结果表明,本方法能显著加速推理速度,且与不剪枝的结果相比,性能损失仅在 0.3 mAP 以内。
Jun, 2023
提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。
Jun, 2021
本文提出一种新的 token pruning 方法,通过筛选关键词实现计算效率和模型效果的折衷,实验结果表明,该方法可显著降低计算成本,同时仅导致 0.1% 的 DeiT-S 识别精度下降。
Jun, 2023
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023
本文提出了一种级联修剪框架,名为 CP-ViT,通过动态预测 Transformer 模型中信息含量低的部分,可以使基于 Vision transformer 的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022