视觉 Transformer 剪枝
通过使用矩阵分解实现视觉转换器修剪,该论文进一步在保留重要特征的基础上,比较了多种矩阵分解方法,最终选择奇异值分解作为降维和计算复杂度减少的方法,通过与原准确率得分进行比较实现目标。
Aug, 2023
本文介绍了一种名为 ViT-Slim 的视觉转换器压缩框架,基于可学习和统一的 l1 稀疏性约束搜索多个维度的子结构,通过预算阈值得到压缩后的模型,试验结果表明,ViT-Slim 可以在保持较高图像分类准确率的同时,将参数和 FLOP 压缩至 40%。
Jan, 2022
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
通过使用模型压缩技术,本研究旨在实现对视觉转换器在资源受限设备上的快速推理,以在边缘环境中将其部署在无人机上,并以最小的准确性损失,以便在监视、环境监测等领域开辟新的可能性。
Sep, 2023
本研究通过探究卷积神经网络的空间维度转换的作用及其有效性,提出了一种基于降维思想的新型 Pooling-based Vision Transformer (PiT) 模型,实验表明 PiT 模型在图像分类、物体检测和模型鲁棒性等方面均优于原始的 Vision Transformer (ViT) 模型。
Mar, 2021
本文提出了一种级联修剪框架,名为 CP-ViT,通过动态预测 Transformer 模型中信息含量低的部分,可以使基于 Vision transformer 的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题,并提出了一种新颖的修剪方法来减少计算成本,该方法称为修剪补丁法,可以移除无用的补丁,从而显著降低模型的计算成本,而不会影响模型的性能。
Jun, 2021
该论文介绍了一种新的块结构剪枝方法,用于解决视觉转换器的资源密集问题,通过均衡的权衡准确性和硬件加速,使其在保持高性能的同时减少资源需求。实验结果表明,该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能,并在精度保持和功耗节省之间实现了显著的平衡。
Jul, 2024
本研究提出了一种基于数据无关的模块感知剪枝方法(DIMAP),用于压缩层级视觉转换器。该方法通过分析信息失真来公正地比较不同层级的 “局部” 注意力权重的贡献,并且引入一种基于权重的新型度量,在不依赖于输入图像的情况下消除了对图块合并过程的依赖性。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势,在去除了 Swin-B 52.5%的 FLOPs 和 52.7%的参数时,仅降低了 0.07%的 Top-5 准确率;而在减少 Swin-S 33.2%的 FLOPs 和 33.2%的参数时,甚至可以实现比原模型更高的 0.8%相对 Top-5 准确率。
Apr, 2024