Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

Oct, 2021

Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs

Philipp Benz, Soomin Ham, Chaoning Zhang, Adil Karjauv, In So Kweon

TL;DR本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能，并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒，其中频率分析表明，最具鲁棒性的 ViT 架构倾向于依赖于低频特征，而 MLP-Mixer 则极易受到普适性对抗扰动的影响。

Abstract

convolutional neural networks (CNNs) have become the de facto gold standard in computer vision applications in the past years. Recently, however, new model architectures have been proposed challenging the status quo. The Vision Transformer (ViT) relies solely on attention modules, whil

convolutional neural networks vision transformer mlp-mixer adversarial attacks frequency analysis

发现论文，激发创造

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

视觉 Transformer 对抗攻击鲁棒性揭示

本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究，实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析，对注意力模型进行了深入理解。

Jun, 2021

Patch-Fool：Vision Transformer 是否总是对对抗性扰动具有稳健性？

本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素，提出了一种名为 Patch-Fool 的攻击框架，通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制，并发现在 Patch-Fool 攻击下，ViTs 不一定比 CNNs 更具鲁棒性。

Mar, 2022

Vision Transformers 对抗样本的鲁棒性

本文研究了 Vision Transformers 在对抗性样本方面的鲁棒性，分析了其与 CNNs 在攻击和安全方面的不同，并提出了一个简单的混合防御方案以提高鲁棒性和准确性。

Mar, 2021

探索反腐容忍性：视觉 Transformer 和 MLP-Mixer 中的归纳偏差

本研究探讨了视觉 transformer 模型、MLP 模型和 ResNet-50 模型的鲁棒性，发现视觉 transformer 模型在面临数据破坏时比 ResNet-50 模型和 MLP-Mixer 模型更具鲁棒性，并且拥有更强的形状偏差。

Jun, 2021

通过柯西问题理解视觉 Transformers 的对抗稳健性

本文通过理论证明和实证分析，探讨了 Vision Transformers 模型的稳健性，证实其在抵抗自然干扰和强攻击方面优于卷积神经网络，并且证明了模型的 Lipschitz 连续性，进一步分析了模型的关键因素和结构，发现 Multi-head Self-Attention 在抵抗弱攻击方面有所贡献，但在抵抗强攻击方面实际上会削弱模型的稳健性。

Aug, 2022

MLP-Mixer: 一种用于视觉的全 MLP 架构

本文提出了一种基于多层感知器 (MLP) 的架构，MLP-Mixer，它不需要使用卷积和注意力机制，包含两种类型的层，一种将 MLP 应用于图像补丁，一种将 MLP 应用于补丁之间的位置信息，具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本，希望鼓励更多超越 CNN 和 Transformer 的研究。

May, 2021

查询高效的硬标签黑盒攻击视觉变换器

本文研究视觉变换器（ViTs）在黑盒情况下对抗性攻击的脆弱性，并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法，通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度，并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明，与对卷积神经网络的最新攻击相比，我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲，充分验证了 ViTs 在对抗性攻击下的脆弱性。

Jun, 2024

理解 Transformer 模型在图像分类中的稳健性

本文探讨了基于 Transformer 的网络架构如 Vision Transformer（ViT）的鲁棒性问题，并针对输入扰动和模型扰动等多个方面进行了实验比较，发现在使用足够的数据量进行预训练的情况下，ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时，实验还发现虽然后面的层激活之间高度相关，但每一层都对分类起到了重要作用。

Mar, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021