卷积神经网络是否可以比 Transformer 更强大？

ICLRJun, 2022

卷积神经网络是否可以比 Transformer 更强大？

Can CNNs Be More Robust Than Transformers?

Zeyu Wang, Yutong Bai, Yuyin Zhou, Cihang Xie

TL;DR本文通过仔细研究 Transformers 的设计，发现在提高稳健性方面，使用卷积神经网络（CNNs）设计的架构同样有效。具体来说，我们的发现分别是：a）分块输入图像，b）增大卷积核尺寸，以及 c）减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单，无需 attention-like 操作的卷积神经网络架构，其稳健性与甚至优于 Transformers。

Abstract

The recent success of vision transformers is shaking the long dominance of convolutional neural networks (CNNs) in image recognition for a decade. Specifically, in terms of →

vision transformers convolutional neural networks robustness self-attention-like architectures neural architectures

发现论文，激发创造

Transformer 模型是否比卷积神经网络更具鲁棒性？

本文首次提供公平而深入的 Transformer 和 CNNs 的对比，重点关注强度的评估，并表明了 CNNs 可以像 Transformer 一样有效地抵御对抗攻击。同时，我们发现强大的泛化能力主要得益于 Transformer 的自我关注式结构，而不是其他的训练设置。

Nov, 2021

理解 Transformer 模型在图像分类中的稳健性

本文探讨了基于 Transformer 的网络架构如 Vision Transformer（ViT）的鲁棒性问题，并针对输入扰动和模型扰动等多个方面进行了实验比较，发现在使用足够的数据量进行预训练的情况下，ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时，实验还发现虽然后面的层激活之间高度相关，但每一层都对分类起到了重要作用。

Mar, 2021

Vision Transformers 对抗样本的鲁棒性

本文研究了 Vision Transformers 在对抗性样本方面的鲁棒性，分析了其与 CNNs 在攻击和安全方面的不同，并提出了一个简单的混合防御方案以提高鲁棒性和准确性。

Mar, 2021

卷积神经网络或 Transformer 模型更像人类视觉？

比较了卷积神经网络和注意力网络的性能差异，使用新的指标展示了注意力网络的错误更贴近于人类，这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。

May, 2021

Vision Transformers 及其基于 CNN-Transformer 的变体调查

本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

May, 2023

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能，并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒，其中频率分析表明，最具鲁棒性的 ViT 架构倾向于依赖于低频特征，而 MLP-Mixer 则极易受到普适性对抗扰动的影响。

Oct, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021