剥离洋葱：分层减少数据冗余以提高Vision Transformer训练效率

Nov, 2022

剥离洋葱：分层减少数据冗余以提高Vision Transformer训练效率

Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training

Zhenglun Kong, Haoyu Ma, Geng Yuan, Mengshu Sun, Yanyue Xie...

TL;DR本文提出了一种从三个稀疏角度出发的训练框架 Tri-Level E-ViT，探索了数据冗余的减少，并证明了该框架不仅可以加速各种 ViT 架构的训练，还可以提高准确性。

Abstract

vision transformers (ViTs) have recently obtained success in many applications, but their intensive computation and heavy memory usage at both training and inference time limit their generalization. Previous compression

发现论文，激发创造

在视觉Transformer中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将Vision transformers稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

基于Hessian感知显著性的全局Vision Transformer压缩

本研究提出了一种称为NViT的基于Hessian的全局结构裁剪方法，能够比以往更高效地利用ViT模型的参数，使得NViT-Base在ImageNet-1K数据集上具备了比DeiT-Base更高的准确率、更低的FLOPs和参数数量以及更快的运行速度。

Oct, 2021

Vision Transformers 的统一剪枝框架

该论文提出了一种名为UP-ViTs的统一结构修剪框架，可在保持模型一致性的同时，压缩Vision Transformer等模型的体积并提高模型的准确性。实验证明，UP-ViTs在Object Detection等任务中取得了不俗的性能，并在ImageNet上超越了传统的ViTs模型。

Nov, 2021

基于级联视觉Transformer的渐进稀疏度预测剪枝

本文提出了一种级联修剪框架，名为CP-ViT，通过动态预测Transformer模型中信息含量低的部分，可以使基于Vision transformer的图像识别模型减少计算冗余，同时保证了很高的准确性，具有在对资源有限的移动设备上进行实际部署的多种适用性。

Mar, 2022

统一视觉Transformer压缩

本论文提出了一种统一的ViT压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在ImageNet数据集上的实验验证，我们的方法在保证精度的前提下有效压缩Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

一种用于Vision Transformer的快速无需训练的压缩框架

提出优化Transformer模型(ViT)部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部-全局令牌合并方法，在多个模型上实现了至多2倍的FLOPS减少和1.8倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

CAIT：面向ViTs的高精度、快速推理和良好可迁移性的三赢压缩

我们提出了一种联合压缩方法，用于Vision Transformers（ViTs），旨在提供高准确性和快速推理速度，同时保持对下游任务的有利可传输性。具体来说，我们引入了不对称的令牌合并（ATME）策略来有效集成相邻的令牌，并引入一致的动态通道修剪（CDCP）策略来动态修剪ViTs中的不重要通道，大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明，我们的方法在各种ViTs上都可以达到最先进的性能。

Sep, 2023

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入ViTs而不影响其性能。

Feb, 2024

视觉Transformer模型压缩与加速综述

本研究通过评估四种主要的模型压缩技术：量化、低秩近似、知识蒸馏和剪枝，解决了视觉Transformer在计算和内存需求方面的问题，并全面实验评估了这些技术及其组合在资源受限环境中优化ViTs的功效，证明了这些方法在模型精度和计算效率之间取得了平衡，为边缘计算设备的广泛应用铺平了道路。

Apr, 2024