FlexiViT：一模型多尺寸贴片处理

CVPRDec, 2022

FlexiViT: One Model for All Patch Sizes

Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith...

TL;DR本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Abstract

vision transformers convert images to sequences by slicing them into patches. The size of these patches controls a speed/accuracy tradeoff, with smaller patches leading to higher accuracy at greater computational cost, but changing the →

vision transformers patch size flexivit compute-adaptive vit

发现论文，激发创造

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

Patch n' Pack: NaViT，一种可适用于任何长宽比和分辨率的视觉 Transformer

NaViT 使用序列打包技术处理任意分辨率和长宽比的输入图像，可以应用于图像分类、目标检测和语义分割等任务，并且在鲁棒性和公平性基准测试中显示出良好的性能。

Jul, 2023

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感，将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明，当在 ImageNet-1K 数据集上进行训练时，RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升，这可能归因于输入中低空间频率成分的包含，从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次，为进一步研究垂直通路和注意模式打开了新的研究方向。

Mar, 2024

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

AdaViT: 自适应视觉 Transformer 用于高效图像识别

本文提出了 AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有 0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。

Nov, 2021

通过补丁选择实现人体姿势估计的高效视觉变换器

提出了一种用于减少 Vision Transformers 计算复杂度的简单方法，通过选择和处理最有信息的小片段，我们将二维人体姿态估计网络的结果作为指导进行小片段的选择，实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效，而且性能略微下降。

Jun, 2023

早期卷积有助于变压器更好地视觉

通过将卷积干部替换为小型的步幅为 2 的 3*3 卷积，研究人员证明了将视觉变换器模型的初始处理更改为标准卷积干部可以显著提高最终模型的稳定性，并提高峰值性能.

Jun, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021