视觉 Transformer 瘦身：连续优化空间中的多维度搜索

CVPRJan, 2022

视觉 Transformer 瘦身：连续优化空间中的多维度搜索

Vision Transformer Slimming: Multi-Dimension Searching in Continuous Optimization Space

Arnav Chavan, Zhiqiang Shen, Zhuang Liu, Zechun Liu, Kwang-Ting Cheng...

TL;DR本文介绍了一种名为 ViT-Slim 的视觉转换器压缩框架，基于可学习和统一的 l1 稀疏性约束搜索多个维度的子结构，通过预算阈值得到压缩后的模型，试验结果表明，ViT-Slim 可以在保持较高图像分类准确率的同时，将参数和 FLOP 压缩至 40%。

Abstract

This paper explores the feasibility of finding an optimal sub-model from a vision transformer and introduces a pure vision transformer sli

vision transformer sub-model vit-slim sparsity constraint model compression

发现论文，激发创造

自瘦身视觉 Transformer

该研究提出了一种基于 Token Slimming Module 和 Feature Recalibration Distillation 的自我瘦身学习方法（SiT），能够大幅减少 Vision Transformers 的计算负担，同时不会对其分类性能产生太大影响，并在 ImageNet 数据集上实现了新的最佳性能。

Nov, 2021

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

在视觉 Transformer 中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将 Vision transformers 稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

ViTAS: 视觉 Transformer 架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

视觉 Transformer 剪枝

本研究提出了一个针对视觉 transformer 的裁剪方法，以不显著影响准确度的方式减少参数和 FLOPs 比例，以适应移动设备的趋势。

Apr, 2021

MiniViT: 基于权重复用压缩视觉 Transformer

提出 MiniViT 压缩框架，利用权重多路复用和自注意力权重蒸馏相结合，显著减少参数数量，同时在视觉任务中保持高精度，找到解决 Vision Transformer 参数过多的问题的方法。

Apr, 2022

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

搜索视觉 Transformer 的搜索空间

本文介绍了使用神经架构搜索来自动化提高 Vision Transformer 架构和搜索空间的过程，以及设计指南和分析。通过使用 E-T Error 来逐步演化不同的搜索维度。此外，从所搜索的空间中得到的模型，名为 S3，评估在 ImageNet 上表现比最近提出的模型（如 Swin、DeiT 和 ViT）更出色，并在目标检测、语义分割和视觉问答等任务中展示了其普适性。

Nov, 2021

基于 Hessian 感知显著性的全局 Vision Transformer 压缩

本研究提出了一种称为 NViT 的基于 Hessian 的全局结构裁剪方法，能够比以往更高效地利用 ViT 模型的参数，使得 NViT-Base 在 ImageNet-1K 数据集上具备了比 DeiT-Base 更高的准确率、更低的 FLOPs 和参数数量以及更快的运行速度。

Oct, 2021

SlimFit: 使用训练动态的 Transformer-based 模型的高效内存微调

SlimFit 可将 Transformer-based 模型的 GPU 内存需求减少至 2.2 倍，动态分析训练动态并在 fine-tuning 期间冻结一部分层，可用于 NLP 和 CV 任务。

May, 2023