HeatViT:面向视觉Transformer的硬件高效自适应Token剪枝
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少Vision Transformer计算成本,并满足移动设备和FPGA的资源规格要求,甚至在移动平台上实现DeiT-T的实时执行。
Dec, 2021
本研究提出了一种名为VAQF的框架,该框架可以在FPGA平台上为量化的ViT模型构建推理加速器,并且可以自动输出所需的量化精度和优化参数设置,以在硬件要求下满足所需的帧速率。通过对基于DeiT-base模型的实验结果的评估,实现表明可以在满足24帧每秒的帧速率要求的情况下使用8位激活量化,以及在使用6位激活量化的情况下可以达到30帧每秒的目标。
Jan, 2022
通过在视觉Transformer模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT在ImageNet数据集上使DeiT-S的FLOPs降低了37%,吞吐量提高了45%以上,而没有准确性下降。
Oct, 2023
为了解决Vision Transformers在计算资源受限环境中的高计算复杂度问题,该研究提出了IdleViT方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT可以将预训练ViTs的复杂性降低高达33%,在只进行30个周期的微调之后在ImageNet上的准确率降低不超过0.2%。值得注意的是,在保留比例为0.5时,IdleViT相比于最先进的EViT在DeiT-S上的准确率更高,且推理速度更快。
Oct, 2023
提出了一种综合算法-硬件设计,通过同时进行静态权重剪枝和动态令牌剪枝,加速在 FPGA 上的 ViT(Vision Transformers)模型,以减少计算复杂性和模型大小。
Mar, 2024
本研究提出了一种基于FPGA的加速器,用于提高Vision Transformers的硬件效率,其中采用了可重构的架构以支持各种操作类型,并通过时分复用和流水线数据流来降低片外数据访问成本,实验证明其在Xilinx ZCU102 FPGA上能够显著优于之前的工作,达到了高达780.2 GOPS的吞吐量和105.1 GOPS/W的能效比。
Mar, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024
Vision Transformers(ViTs)在计算机视觉任务中表现卓越,但它们在资源受限设备上的部署受到内存消耗和计算密集性的挑战。为了解决这个限制,我们提出了第一个适用于P2-ViT的后训练量化和加速框架,通过专门的量化方案有效量化ViTs,并设计硬件加速器和数据流来提高效率。
May, 2024
该论文介绍了一种新的块结构剪枝方法,用于解决视觉转换器的资源密集问题,通过均衡的权衡准确性和硬件加速,使其在保持高性能的同时减少资源需求。实验结果表明,该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能,并在精度保持和功耗节省之间实现了显著的平衡。
Jul, 2024
Vision Transformers (ViTs) are analyzed in terms of deployment on Field-Programmable Gate Arrays (FPGAs), and CHOSEN, a software-hardware co-design framework, is introduced to address the challenges and maximize performance with a 1.5x and 1.42x improvement in throughput.
Jul, 2024