AAAIMay, 2021

视觉 Transformers 是强大的学习器

TL;DR本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。