Vision Transformers 的统一剪枝框架
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了一种高效的 ViT 压缩解决方案,该方法基于多头注意力层的新见解开发,可用于获得紧凑的基于注意力的视觉模型,并在图像分类任务中取得比最先进的剪枝方法更高的准确性。
May, 2023
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
我们提出了一种联合压缩方法,用于 Vision Transformers(ViTs),旨在提供高准确性和快速推理速度,同时保持对下游任务的有利可传输性。具体来说,我们引入了不对称的令牌合并(ATME)策略来有效集成相邻的令牌,并引入一致的动态通道修剪(CDCP)策略来动态修剪 ViTs 中的不重要通道,大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明,我们的方法在各种 ViTs 上都可以达到最先进的性能。
Sep, 2023
采用新型 Token Pruning & Squeezing 模块(TPS)可以更高效地压缩视觉转换器,提高模型的计算速度和图像分类精度。
Apr, 2023
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,解决了视觉 Transformer 在计算和内存需求方面的问题,并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效,证明了这些方法在模型精度和计算效率之间取得了平衡,为边缘计算设备的广泛应用铺平了道路。
Apr, 2024
本文提出一种称为 UPop 的通用视觉 - 语言 Transformer 压缩框架,可以在多个生成性和判别性视觉 - 语言任务中自动分配修剪比例,并获得更高的压缩比。
Jan, 2023
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
通过使用模型压缩技术,本研究旨在实现对视觉转换器在资源受限设备上的快速推理,以在边缘环境中将其部署在无人机上,并以最小的准确性损失,以便在监视、环境监测等领域开辟新的可能性。
Sep, 2023