COMCAT:注重效率的基于注意力机制的视觉模型压缩和定制化
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
该论文提出了一种名为 UP-ViTs 的统一结构修剪框架,可在保持模型一致性的同时,压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明,UP-ViTs 在 Object Detection 等任务中取得了不俗的性能,并在 ImageNet 上超越了传统的 ViTs 模型。
Nov, 2021
提出 MiniViT 压缩框架,利用权重多路复用和自注意力权重蒸馏相结合,显著减少参数数量,同时在视觉任务中保持高精度,找到解决 Vision Transformer 参数过多的问题的方法。
Apr, 2022
我们提出了一种联合压缩方法,用于 Vision Transformers(ViTs),旨在提供高准确性和快速推理速度,同时保持对下游任务的有利可传输性。具体来说,我们引入了不对称的令牌合并(ATME)策略来有效集成相邻的令牌,并引入一致的动态通道修剪(CDCP)策略来动态修剪 ViTs 中的不重要通道,大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明,我们的方法在各种 ViTs 上都可以达到最先进的性能。
Sep, 2023
本文提出了一种基于激活感知的模型压缩方法,通过使用不同层的低秩张量逼近来减少 Vision Transformers(ViTs)的参数数量,克服了内存限制,实现在内存受限环境中嵌入 ViTs 而不影响其性能。
Feb, 2024
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,解决了视觉 Transformer 在计算和内存需求方面的问题,并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效,证明了这些方法在模型精度和计算效率之间取得了平衡,为边缘计算设备的广泛应用铺平了道路。
Apr, 2024
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023
这篇论文提出了一种名为 DC-ViT 的少样本 Vision Transformer 压缩框架,通过有选择性地消除注意力模块并保留和重用 MLP 模块的部分来实现稠密压缩,使得输出的压缩模型数量丰富,覆盖了多种模型复杂度范围,相比最先进的少样本压缩方法在 Vision Transformer 及其变种的压缩中,性能提升了 10 个百分点,并且具有更低的延迟。
Mar, 2024
最近的研究已经取得了视觉转换器 (ViT) 的巨大成功,在多个计算机视觉基准测试中取得了最先进的性能。然而,ViT 模型受到庞大的参数量和高计算成本的限制,导致在资源受限的边缘设备上难以部署。为了解决这个问题,我们提出了一种探索转换器结构的可拆分性,将大型 ViT 分解成多个小型模型,在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理,并与大型 ViTs 相比保持相当的准确性。为此,我们首先提出了一种名为 DeViT 的协同推理框架,通过分解大型 ViTs 来促进边缘部署。随后,我们设计了一种基于知识蒸馏的分解和集成算法,称为 DEKD,通过开发特征匹配模块来处理异构模型,以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理,并且优于现有的轻量级 ViTs,在效率和准确性之间取得了良好的平衡。例如,在 GPU 服务器上使用 CIFAR-100,与大型 ViT,ViT-L/16 相比,我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT,MobileViT-S,同时运行速度提升了 1.72 倍,边缘设备的能源消耗降低了 55.28%。
Sep, 2023
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021