May, 2021

视觉 Transformers 是强大的学习器

TL;DR本文旨在研究Vision Transformer对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的ImageNet数据集上与SOTA卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释ViT为什么是更加稳健的学习器。