稀疏剪枝:朝着高效的视觉 Transformer
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将 Vision transformers 稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题,并提出了一种新颖的修剪方法来减少计算成本,该方法称为修剪补丁法,可以移除无用的补丁,从而显著降低模型的计算成本,而不会影响模型的性能。
Jun, 2021
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
本文提出了 SparseViT,通过窗口激活剪枝技术对最近的基于窗口的视觉变换器 (VITs) 进行活化稀疏化处理,通过稀疏感知的调整和进化搜索,实现不同层次适应不同的剪枝比率优化。SparseViT 在不降低准确性的前提下,分别在单眼 3D 目标检测、2D 实例分割和 2D 语义分割中实现了 1.5x、1.4x 和 1.3x 的速度提升。
Mar, 2023
Vision transformers are state-of-the-art models that use attention to identify key features in images, but their performance regarding sparse double descent and the optimal model size remains unknown.
Jul, 2023
本文提出了稠密视觉 Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。
Mar, 2021
本文提出了一种级联修剪框架,名为 CP-ViT,通过动态预测 Transformer 模型中信息含量低的部分,可以使基于 Vision transformer 的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020