Oct, 2021

Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

TL;DR本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能,并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒,其中频率分析表明,最具鲁棒性的 ViT 架构倾向于依赖于低频特征,而 MLP-Mixer 则极易受到普适性对抗扰动的影响。