关于视觉 Transformer 的对抗鲁棒性
本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能,并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒,其中频率分析表明,最具鲁棒性的 ViT 架构倾向于依赖于低频特征,而 MLP-Mixer 则极易受到普适性对抗扰动的影响。
Oct, 2021
本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究,实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理解。
Jun, 2021
本文通过理论证明和实证分析,探讨了 Vision Transformers 模型的稳健性,证实其在抵抗自然干扰和强攻击方面优于卷积神经网络,并且证明了模型的 Lipschitz 连续性,进一步分析了模型的关键因素和结构,发现 Multi-head Self-Attention 在抵抗弱攻击方面有所贡献,但在抵抗强攻击方面实际上会削弱模型的稳健性。
Aug, 2022
本文研究使用 Vision Transformers 架构在对抗训练中对抗外部攻击的鲁棒性问题,并使用 ImageNet 数据集的子集进行严格的消融研究,找到了一种改进后的训练方法,可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。
Sep, 2022
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素,提出了一种名为 Patch-Fool 的攻击框架,通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制,并发现在 Patch-Fool 攻击下,ViTs 不一定比 CNNs 更具鲁棒性。
Mar, 2022
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021
本文研究视觉变换器(ViTs)在黑盒情况下对抗性攻击的脆弱性,并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法,通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度,并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明,与对卷积神经网络的最新攻击相比,我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲,充分验证了 ViTs 在对抗性攻击下的脆弱性。
Jun, 2024
本文探讨了基于 Transformer 的网络架构如 Vision Transformer(ViT)的鲁棒性问题,并针对输入扰动和模型扰动等多个方面进行了实验比较,发现在使用足够的数据量进行预训练的情况下,ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时,实验还发现虽然后面的层激活之间高度相关,但每一层都对分类起到了重要作用。
Mar, 2021