高效视觉 Transformer 的 Patch Slimming

CVPRJun, 2021

Patch Slimming for Efficient Vision Transformers

Yehui Tang, Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo...

TL;DR该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题，并提出了一种新颖的修剪方法来减少计算成本，该方法称为修剪补丁法，可以移除无用的补丁，从而显著降低模型的计算成本，而不会影响模型的性能。

Abstract

This paper studies the efficiency problem for visual transformers by excavating redundant calculation in given networks. The recent transformer architecture has demonstrated its effectiveness for achieving excell

visual transformers efficiency patch slimming computational cost attention mechanism

发现论文，激发创造

基于生命回归的视觉变压器局部细化

本研究提出了一个基于生命周期回归模块的图像分割方法，它可以在减少计算量及参数的情况下，提高推理速度，在保持竞争性能的同时需要较少的训练历程。

Apr, 2023

通过补丁选择实现人体姿势估计的高效视觉变换器

提出了一种用于减少 Vision Transformers 计算复杂度的简单方法，通过选择和处理最有信息的小片段，我们将二维人体姿态估计网络的结果作为指导进行小片段的选择，实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效，而且性能略微下降。

Jun, 2023

具有补丁多样化的视觉 Transformer

本文提出一种新的损失函数来促进视觉转换器中提取的补丁表示的差异性，以稳定训练并改善下游的语义分割任务的结果。实验证明，这种方法可以训练更广泛和更深的视觉转换器，并在 Cityscapes 和 ADE20k 上增强了最新的结果。

Apr, 2021

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

平滑视觉变换器下的认证补丁鲁棒性

本文探讨使用视觉变换器在不引起重大标准准确度降低的情况下，显著提高认证补丁鲁棒性和计算效率的能力。

Oct, 2021

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使 Vision Transformer 高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

基于 Vision Transformer 的实用可验证补丁防御

利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性，同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上，在 2% 区域补丁攻击下，本文方法达到 41.70% 的证明准确度，比之前最佳方法高出近 1 倍（26.00%）。同时，本方法达到了 78.58% 的干净准确度，接近正常 ResNet-101 的准确度，并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。

Mar, 2022

SlowFormer：面向计算与能量效率的通用敌对修补攻击 —— 对推理高效视觉转换器的攻击

近期，在深度模型的推断计算方面取得了很多进展，这些方法可以减少深度模型的计算需求和功耗。我们展示了这些模型容易受到普适性对抗贴片攻击的影响，攻击者通过优化一个贴片，将其粘贴到任意图像上可以增加模型的计算量和功耗。我们运行实验使用了三种不同的高效视觉转换器方法，显示在某些情况下，攻击者只需将一个只占图像面积的 8% 的贴片粘贴上即可将计算量增加到最大限度。同时我们还展示了标准对抗性训练防御方法可以减少攻击的成功率。我们相信为降低深度模型的功耗，未来需要采用自适应高效的方法，希望我们的论文可以鼓励研究人员研究这些方法的强韧性，并开发更好的防御方法来对抗这种攻击。

Oct, 2023

补丁不是全部所需

我们提出了一种新的模式转换器 (Pattern Transformer)，通过卷积神经网络从输入图像中提取各种模式，将每个通道表示为一个独特的模式，并将其作为视觉令牌输入到后续的 Transformer 模型中，从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上，我们通过仅使用通用 ResNet 和 Transformer 模型，取得了最新的性能，并在 ImageNet 上取得了优异的结果。

Aug, 2023