PPT:高效视觉Transformer的令牌修剪和池化
提出了一种动态的、基于输入的Token稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有CNN和Transformer模型,通过分层删减66%的输入元素,可以大大减少FLOPs、提高吞吐量。
Jun, 2021
Evo-ViT is a self-motivated slow-fast token evolution approach that accelerates vision transformers while maintaining comparable performance on image classification by conducting unstructured instance-wise token selection and updating the selected informative tokens and uninformative tokens with different computation paths.
Aug, 2021
该研究提出了一种称作 Token Pooling 的新型令牌下采样方法,旨在提高对视觉变换的计算速度,并通过对 softmax 注意力机制的研究,实现了更好的计算速度与精度之间的平衡。
Oct, 2021
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少Vision Transformer计算成本,并满足移动设备和FPGA的资源规格要求,甚至在移动平台上实现DeiT-T的实时执行。
Dec, 2021
采用新型Token Pruning & Squeezing模块(TPS)可以更高效地压缩视觉转换器,提高模型的计算速度和图像分类精度。
Apr, 2023
这篇论文介绍了一种名为LTMP的学习阈值符号合并和修剪方法,它通过动态确定合并和修剪的符号,以降低计算视觉变换器所需的输入符号数量,实现了在降低速率的同时保持最先进的准确性,在仅一个微调阶段的情况下比先前的方法快一个数量级以上。
Jul, 2023
我们提出了一种联合压缩方法,用于Vision Transformers(ViTs),旨在提供高准确性和快速推理速度,同时保持对下游任务的有利可传输性。具体来说,我们引入了不对称的令牌合并(ATME)策略来有效集成相邻的令牌,并引入一致的动态通道修剪(CDCP)策略来动态修剪ViTs中的不重要通道,大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明,我们的方法在各种ViTs上都可以达到最先进的性能。
Sep, 2023
为了解决Vision Transformers在计算资源受限环境中的高计算复杂度问题,该研究提出了IdleViT方法,通过动态删除图像令牌来改善计算负担,实现了性能和效率之间的卓越折中。在各个层中,IdleViT选择参与计算的图像令牌子集,并将其余的令牌保持空闲并直接传递给该层的输出,通过在后续层重新选择空闲令牌,IdleViT减轻了早期错误剪枝对模型性能的负面影响。该方法简单而有效,可扩展到金字塔ViTs,因为没有完全删除的令牌。大量的实验结果表明,IdleViT可以将预训练ViTs的复杂性降低高达33%,在只进行30个周期的微调之后在ImageNet上的准确率降低不超过0.2%。值得注意的是,在保留比例为0.5时,IdleViT相比于最先进的EViT在DeiT-S上的准确率更高,且推理速度更快。
Oct, 2023
使用视觉Transformer(ViTs)处理图像问题存在显著的计算复杂度,本文提出了一种新的令牌传播控制器(TPC),通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。
Jan, 2024
该论文介绍了一种新的块结构剪枝方法,用于解决视觉转换器的资源密集问题,通过均衡的权衡准确性和硬件加速,使其在保持高性能的同时减少资源需求。实验结果表明,该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能,并在精度保持和功耗节省之间实现了显著的平衡。
Jul, 2024