COMCAT：注重效率的基于注意力机制的视觉模型压缩和定制化

ICMLMay, 2023

COMCAT：注重效率的基于注意力机制的视觉模型压缩和定制化

COMCAT: Towards Efficient Compression and Customization of Attention-Based Vision Models

Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren...

TL;DR本文提出了一种高效的 ViT 压缩解决方案，该方法基于多头注意力层的新见解开发，可用于获得紧凑的基于注意力的视觉模型，并在图像分类任务中取得比最先进的剪枝方法更高的准确性。

Abstract

Attention-based vision models, such as vision transformer (ViT) and its variants, have shown promising performance in various computer vision tasks. However, these emerging architectures suffer from large model s

vision transformer model compression multi-head attention computer vision cnn compression

发现论文，激发创造

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

Vision Transformers 的统一剪枝框架

该论文提出了一种名为 UP-ViTs 的统一结构修剪框架，可在保持模型一致性的同时，压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明，UP-ViTs 在 Object Detection 等任务中取得了不俗的性能，并在 ImageNet 上超越了传统的 ViTs 模型。

Nov, 2021

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

CAIT：面向 ViTs 的高精度、快速推理和良好可迁移性的三赢压缩

我们提出了一种联合压缩方法，用于 Vision Transformers（ViTs），旨在提供高准确性和快速推理速度，同时保持对下游任务的有利可传输性。具体来说，我们引入了不对称的令牌合并（ATME）策略来有效集成相邻的令牌，并引入一致的动态通道修剪（CDCP）策略来动态修剪 ViTs 中的不重要通道，大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明，我们的方法在各种 ViTs 上都可以达到最先进的性能。

Sep, 2023

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少 Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入 ViTs 而不影响其性能。

Feb, 2024

视觉 Transformer 模型压缩与加速综述

本研究通过评估四种主要的模型压缩技术：量化、低秩近似、知识蒸馏和剪枝，解决了视觉 Transformer 在计算和内存需求方面的问题，并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效，证明了这些方法在模型精度和计算效率之间取得了平衡，为边缘计算设备的广泛应用铺平了道路。

Apr, 2024

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

少样本下的稠密视觉 Transformer 压缩

这篇论文提出了一种名为 DC-ViT 的少样本 Vision Transformer 压缩框架，通过有选择性地消除注意力模块并保留和重用 MLP 模块的部分来实现稠密压缩，使得输出的压缩模型数量丰富，覆盖了多种模型复杂度范围，相比最先进的少样本压缩方法在 Vision Transformer 及其变种的压缩中，性能提升了 10 个百分点，并且具有更低的延迟。

Mar, 2024

DeViT：分解视觉 Transformer 用于边缘设备的协同推理

最近的研究已经取得了视觉转换器 (ViT) 的巨大成功，在多个计算机视觉基准测试中取得了最先进的性能。然而，ViT 模型受到庞大的参数量和高计算成本的限制，导致在资源受限的边缘设备上难以部署。为了解决这个问题，我们提出了一种探索转换器结构的可拆分性，将大型 ViT 分解成多个小型模型，在边缘设备上进行协同推理。我们的目标是实现快速高效的协同推理，并与大型 ViTs 相比保持相当的准确性。为此，我们首先提出了一种名为 DeViT 的协同推理框架，通过分解大型 ViTs 来促进边缘部署。随后，我们设计了一种基于知识蒸馏的分解和集成算法，称为 DEKD，通过开发特征匹配模块来处理异构模型，以促进从大型 ViT 中分解出的模型的模仿能力。在四个广泛使用的数据集上对三个代表性的 ViT 骨干部分进行了大量实验证明我们的方法实现了 ViTs 的高效协同推理，并且优于现有的轻量级 ViTs，在效率和准确性之间取得了良好的平衡。例如，在 GPU 服务器上使用 CIFAR-100，与大型 ViT，ViT-L/16 相比，我们的 DeViTs 可以通过牺牲 1.65% 的准确性来提高端到端延迟 2.89 倍。DeDeiTs 在 ImageNet-1K 上的准确性超过了最近的高效 ViT，MobileViT-S，同时运行速度提升了 1.72 倍，边缘设备的能源消耗降低了 55.28%。

Sep, 2023

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021