补丁是你所需的全部?
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本文介绍视觉 Transformer (ViT) 在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个 ViT 层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了 Vision Transformer 表达 CNN 所需头数的下限,该证明的构建可以帮助将卷积偏差注入 Transformer,并在低数据环境下显著提高 ViT 的性能。
Nov, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021
我们提出了一种新的模式转换器 (Pattern Transformer),通过卷积神经网络从输入图像中提取各种模式,将每个通道表示为一个独特的模式,并将其作为视觉令牌输入到后续的 Transformer 模型中,从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上,我们通过仅使用通用 ResNet 和 Transformer 模型,取得了最新的性能,并在 ImageNet 上取得了优异的结果。
Aug, 2023
本研究使用 Patch Mixing 数据增强方法,旨在探讨是否可以通过有效地硬连中的归纳偏差,使 CNNs 模拟出 ViTs 的图像选片能力,结果显示 ViTs 不会因 Patch Mixing 而改善或恶化,但 CNN 将获得忽略非上下文信息和改进遮挡基准的新功能,在 CNNs 中模拟 ViTs 的能力,因此 Patch Mixing 是一种模拟 ViTs 能力的方式。
Jun, 2023
本文提出了一种新型的多路径视觉 Transformer(MPViT),通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌,将令牌按比例分为多个分支,并对分支进行处理,从而获得丰富的、多尺度的特征表示,在各项指标上均优于当前其他前沿网络,具有广泛的应用前景。
Dec, 2021
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
通过引入一种新颖的 CNN 模型 ——PatchMixer,我们解决了 Transformer 模型在时间序列预测任务中面临的挑战,该模型具有可以保留时间信息的排列不变自注意力机制。与传统 CNN 不同的是,我们的方法仅依赖于深度可分离卷积,可以在单一尺度的结构中提取局部特征和全局相关性。试验结果表明,与现有最先进的方法和表现最佳的 CNN 相比,PatchMixer 相对提升了分别为 3.9%和 21.2%,而且速度是最先进方法的 2-3 倍。我们将发布我们的代码和模型。
Oct, 2023
视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。
Mar, 2024