补丁是你所需的全部？

Jan, 2022

Patches Are All You Need?

Asher Trockman, J. Zico Kolter

TL;DR本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Abstract

Although convolutional networks have been the dominant architecture for vision tasks for many years, recent experiments have shown that transformer-based models, most notably the Vision →

convmixer transformer self-attention layers image patches vision tasks

发现论文，激发创造

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

视觉 Transformer 能否执行卷积？

本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上，探究其能否表达卷积操作，并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作，其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限，该证明的构建可以帮助将卷积偏差注入 Transformer，并在低数据环境下显著提高 ViT 的性能。

Nov, 2021

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021

补丁不是全部所需

我们提出了一种新的模式转换器 (Pattern Transformer)，通过卷积神经网络从输入图像中提取各种模式，将每个通道表示为一个独特的模式，并将其作为视觉令牌输入到后续的 Transformer 模型中，从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上，我们通过仅使用通用 ResNet 和 Transformer 模型，取得了最新的性能，并在 ImageNet 上取得了优异的结果。

Aug, 2023

使用补丁混合将 ViT 补丁选择性硬连到 CNN 中

本研究使用 Patch Mixing 数据增强方法，旨在探讨是否可以通过有效地硬连中的归纳偏差，使 CNNs 模拟出 ViTs 的图像选片能力，结果显示 ViTs 不会因 Patch Mixing 而改善或恶化，但 CNN 将获得忽略非上下文信息和改进遮挡基准的新功能，在 CNNs 中模拟 ViTs 的能力，因此 Patch Mixing 是一种模拟 ViTs 能力的方式。

Jun, 2023

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

PatchMixer：长期时间序列预测的补丁混合架构

通过引入一种新颖的 CNN 模型 ——PatchMixer，我们解决了 Transformer 模型在时间序列预测任务中面临的挑战，该模型具有可以保留时间信息的排列不变自注意力机制。与传统 CNN 不同的是，我们的方法仅依赖于深度可分离卷积，可以在单一尺度的结构中提取局部特征和全局相关性。试验结果表明，与现有最先进的方法和表现最佳的 CNN 相比，PatchMixer 相对提升了分别为 3.9％和 21.2％，而且速度是最先进方法的 2-3 倍。我们将发布我们的代码和模型。

Oct, 2023

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感，将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明，当在 ImageNet-1K 数据集上进行训练时，RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升，这可能归因于输入中低空间频率成分的包含，从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次，为进一步研究垂直通路和注意模式打开了新的研究方向。

Mar, 2024