在视觉Transformer中追求稀疏性:一次端到端的探索
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文将ViTs和MLP-Mixers从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高ViTs和MLP-Mixers的准确性和鲁棒性。
Jun, 2021
本研究提出了一种称为NViT的基于Hessian的全局结构裁剪方法,能够比以往更高效地利用ViT模型的参数,使得NViT-Base在ImageNet-1K数据集上具备了比DeiT-Base更高的准确率、更低的FLOPs和参数数量以及更快的运行速度。
Oct, 2021
本文提出了一种级联修剪框架,名为CP-ViT,通过动态预测Transformer模型中信息含量低的部分,可以使基于Vision transformer的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT,探索了数据冗余的减少,并证明了该框架不仅可以加速各种 ViT 架构的训练,还可以提高准确性。
Nov, 2022
提出优化Transformer模型(ViT)部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部-全局令牌合并方法,在多个模型上实现了至多2倍的FLOPS减少和1.8倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023
本文提出了一种基于学习的、实例相关的注意力机制来加速Vision Transformers网络,其将自注意力操作限制在空间上邻近的一组Token上,并通过轻量级的连接性预测器模块评估Token之间的连接得分来解决由结构化注意力模式引起的语义信息丧失问题,可以在保证准确率下显著减少计算量,达到更优的精度-计算复杂度平衡点,进一步结合Token稀疏机制,该方法可以将Vision Transformers网络的FLOPs降低超过60%。
Mar, 2023
本文提出了SparseViT,通过窗口激活剪枝技术对最近的基于窗口的视觉变换器(VITs)进行活化稀疏化处理,通过稀疏感知的调整和进化搜索,实现不同层次适应不同的剪枝比率优化。SparseViT在不降低准确性的前提下,分别在单眼3D目标检测、2D实例分割和2D语义分割中实现了1.5x、1.4x和1.3x的速度提升。
Mar, 2023
Vision transformers are state-of-the-art models that use attention to identify key features in images, but their performance regarding sparse double descent and the optimal model size remains unknown.
Jul, 2023
本研究针对现有2:4稀疏模式在GPU推理中低加速效益及固定稀疏比的问题,探索了V:N:M稀疏性的应用。通过提出启发式的V和M选择、特定通道置换和三阶段LoRA训练技术,提高了V:N:M稀疏变换器的适用性和准确性。实验结果表明,V:N:M稀疏变换器能够在低的稀疏比下实现无损准确性,并在速度-准确性权衡上优于2:4稀疏性,为成本敏感的推理场景提供了有效的加速解决方案。
Oct, 2024