MIA-Former: 多粒度输入适应的高效和鲁棒视觉Transformer

Dec, 2021

MIA-Former: 多粒度输入适应的高效和鲁棒视觉Transformer

MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation

Zhongzhi Yu, Yonggan Fu, Sicheng Li, Chaojian Li, Yingyan Lin

TL;DR本文提出了一种多粒度输入自适应Transformer框架MIA-Former，可以在多个粒度上调整ViTs的结构以适应输入图像的不同难度，并且具有改进对抗攻击鲁棒性的效果。经过实验验证，MIA-Former能够有效地分配计算资源，并取得与SOTA动态Transformer模型相比甚至更高的准确率和更低的计算复杂度。

Abstract

vits are often too computationally expensive to be fitted onto real-world resource-constrained devices, due to (1) their quadratically increased complexity with the number of input tokens and (2) their overparameterized self-attention heads and model depth. In parallel, different image

发现论文，激发创造

视觉 Transformers 是强大的学习器

本文旨在研究Vision Transformer对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的ImageNet数据集上与SOTA卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释ViT为什么是更加稳健的学习器。

May, 2021

动态Transformer用于高效图像识别：并非所有图像都相当于16x16个单词

本文提出了一种名为Dynamic Transformer的方法，通过将多个变压器级联并在测试时以自适应方式逐个激活它们，自动配置每个输入图像的适当标记数。在ImageNet，CIFAR-10和CIFAR-100上的广泛实证结果表明，我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。

May, 2021

在视觉Transformer中追求稀疏性：一次端到端的探索

本文旨在从减小训练存储开销和推理复杂度的角度，提出一种先将Vision transformers稀疏化，然后再训练的方法，从而实现一定的加速效果并保持较高的精度。

Jun, 2021

无需训练的自适应视觉Transformer

提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Feb, 2022

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

简化动态扫描增强对视觉Transformer的鲁棒性改进

通过引入自适应关注机制的动态扫描增强技术，本文提出了一种增强Vision Transformer（ViT）准确性和鲁棒性的新方法，该方法在面对对抗性攻击时表现出色，改善了ViT的鲁棒性从17% 提高到92%，同时提高了对自然图像的准确性。

Nov, 2023

高效的视觉Transformer的令牌传播控制器

使用视觉Transformer（ViTs）处理图像问题存在显著的计算复杂度，本文提出了一种新的令牌传播控制器（TPC），通过考虑令牌分布和引入平滑机制以及模型稳定器来提高令牌利用率和模型稳定性。实验证明了该方法的有效性。

Jan, 2024

记忆高效的视觉变换器：一种激活感知的混合秩压缩策略

本文提出了一种基于激活感知的模型压缩方法，通过使用不同层的低秩张量逼近来减少Vision Transformers（ViTs）的参数数量，克服了内存限制，实现在内存受限环境中嵌入ViTs而不影响其性能。

Feb, 2024

高效视觉变换器微调的自适应层选择

本研究解决了视觉变换器(ViTs)微调过程资源消耗高的问题，提出了一种名为ALaST的高效微调方法。该方法通过自适应评估各层的重要性，精确分配计算预算，显著提高了微调效率，减少了训练时间、计算量和内存负担。研究显示，使用此方法能够在保持性能的同时，训练时间缩短达1.5倍，计算量和内存减少均可达2倍。

Aug, 2024