少样本下的稠密视觉 Transformer 压缩

CVPRMar, 2024

少样本下的稠密视觉 Transformer 压缩

Dense Vision Transformer Compression with Few Samples

Hanxiao Zhang, Yifan Zhou, Guo-Hua Wang, Jianxin Wu

TL;DR这篇论文提出了一种名为 DC-ViT 的少样本 Vision Transformer 压缩框架，通过有选择性地消除注意力模块并保留和重用 MLP 模块的部分来实现稠密压缩，使得输出的压缩模型数量丰富，覆盖了多种模型复杂度范围，相比最先进的少样本压缩方法在 Vision Transformer 及其变种的压缩中，性能提升了 10 个百分点，并且具有更低的延迟。

Abstract

few-shot model compression aims to compress a large model into a more compact one with only a tiny training set (even without labels). block-level pruning has recently emerged as a leading technique in achieving

few-shot model compression block-level pruning vision transformers sparse compression dc-vit

发现论文，激发创造

COMCAT：注重效率的基于注意力机制的视觉模型压缩和定制化

本文提出了一种高效的 ViT 压缩解决方案，该方法基于多头注意力层的新见解开发，可用于获得紧凑的基于注意力的视觉模型，并在图像分类任务中取得比最先进的剪枝方法更高的准确性。

May, 2023

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

视觉 Transformer 模型压缩与加速综述

本研究通过评估四种主要的模型压缩技术：量化、低秩近似、知识蒸馏和剪枝，解决了视觉 Transformer 在计算和内存需求方面的问题，并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效，证明了这些方法在模型精度和计算效率之间取得了平衡，为边缘计算设备的广泛应用铺平了道路。

Apr, 2024

Vision Transformers 的统一剪枝框架

该论文提出了一种名为 UP-ViTs 的统一结构修剪框架，可在保持模型一致性的同时，压缩 Vision Transformer 等模型的体积并提高模型的准确性。实验证明，UP-ViTs 在 Object Detection 等任务中取得了不俗的性能，并在 ImageNet 上超越了传统的 ViTs 模型。

Nov, 2021

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

LPViT：低功耗半结构化剪枝用于视觉 Transformer

该论文介绍了一种新的块结构剪枝方法，用于解决视觉转换器的资源密集问题，通过均衡的权衡准确性和硬件加速，使其在保持高性能的同时减少资源需求。实验结果表明，该方法在不同的视觉转换器架构下通过其他剪枝方法实现了竞争性的性能，并在精度保持和功耗节省之间实现了显著的平衡。

Jul, 2024

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

剥离洋葱：分层减少数据冗余以提高 Vision Transformer 训练效率

本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT，探索了数据冗余的减少，并证明了该框架不仅可以加速各种 ViT 架构的训练，还可以提高准确性。

Nov, 2022

在视觉 Transformer 中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将 Vision transformers 稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

压缩视觉 Transformer 用于低资源视觉学习

通过使用模型压缩技术，本研究旨在实现对视觉转换器在资源受限设备上的快速推理，以在边缘环境中将其部署在无人机上，并以最小的准确性损失，以便在监视、环境监测等领域开辟新的可能性。

Sep, 2023