记忆高效的视觉变换器:一种激活感知的混合秩压缩策略
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了一种高效的 ViT 压缩解决方案,该方法基于多头注意力层的新见解开发,可用于获得紧凑的基于注意力的视觉模型,并在图像分类任务中取得比最先进的剪枝方法更高的准确性。
May, 2023
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,解决了视觉 Transformer 在计算和内存需求方面的问题,并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效,证明了这些方法在模型精度和计算效率之间取得了平衡,为边缘计算设备的广泛应用铺平了道路。
Apr, 2024
我们提出了一种联合压缩方法,用于 Vision Transformers(ViTs),旨在提供高准确性和快速推理速度,同时保持对下游任务的有利可传输性。具体来说,我们引入了不对称的令牌合并(ATME)策略来有效集成相邻的令牌,并引入一致的动态通道修剪(CDCP)策略来动态修剪 ViTs 中的不重要通道,大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明,我们的方法在各种 ViTs 上都可以达到最先进的性能。
Sep, 2023
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
本论文提出了一种名为 BinaryViT 的方法,通过引入梯度正则化方案和激活偏移模块解决了 Vision Transformers 全量二值化所面临的性能降低和信息失真问题,使得其在计算和存储资源受限的设备上也能有更好的运行表现。
May, 2023
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023
最近的研究已经取得了视觉转换器 (ViT) 的巨大成功,在多个计算机视觉基准测试中取得了最先进的性能。然而,ViT 模型受到庞大的参数量和高计算成本的限制,导致在资源受限的边缘设备上难以部署。为了解决这个问题,我们提出了一种探索转换器结构的可拆分性,将大型 ViT 分解成多个小型模型,在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理,并与大型 ViTs 相比保持相当的准确性。为此,我们首先提出了一种名为 DeViT 的协同推理框架,通过分解大型 ViTs 来促进边缘部署。随后,我们设计了一种基于知识蒸馏的分解和集成算法,称为 DEKD,通过开发特征匹配模块来处理异构模型,以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理,并且优于现有的轻量级 ViTs,在效率和准确性之间取得了良好的平衡。例如,在 GPU 服务器上使用 CIFAR-100,与大型 ViT,ViT-L/16 相比,我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT,MobileViT-S,同时运行速度提升了 1.72 倍,边缘设备的能源消耗降低了 55.28%。
Sep, 2023
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023