Mar, 2021

关于视觉 Transformer 的对抗鲁棒性

TL;DR本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。