MiniViT: 基于权重复用压缩视觉 Transformer
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
Jul, 2022
本文提出了一种高效的 ViT 压缩解决方案,该方法基于多头注意力层的新见解开发,可用于获得紧凑的基于注意力的视觉模型,并在图像分类任务中取得比最先进的剪枝方法更高的准确性。
May, 2023
最近的研究已经取得了视觉转换器 (ViT) 的巨大成功,在多个计算机视觉基准测试中取得了最先进的性能。然而,ViT 模型受到庞大的参数量和高计算成本的限制,导致在资源受限的边缘设备上难以部署。为了解决这个问题,我们提出了一种探索转换器结构的可拆分性,将大型 ViT 分解成多个小型模型,在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理,并与大型 ViTs 相比保持相当的准确性。为此,我们首先提出了一种名为 DeViT 的协同推理框架,通过分解大型 ViTs 来促进边缘部署。随后,我们设计了一种基于知识蒸馏的分解和集成算法,称为 DEKD,通过开发特征匹配模块来处理异构模型,以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理,并且优于现有的轻量级 ViTs,在效率和准确性之间取得了良好的平衡。例如,在 GPU 服务器上使用 CIFAR-100,与大型 ViT,ViT-L/16 相比,我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT,MobileViT-S,同时运行速度提升了 1.72 倍,边缘设备的能源消耗降低了 55.28%。
Sep, 2023
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs 方面获得了显著的理论加速。
May, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
本文提出了一种基于激活感知的模型压缩方法,通过使用不同层的低秩张量逼近来减少 Vision Transformers(ViTs)的参数数量,克服了内存限制,实现在内存受限环境中嵌入 ViTs 而不影响其性能。
Feb, 2024
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022