Vision Transformer 对补丁扰动具有鲁棒性吗?
本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素,提出了一种名为 Patch-Fool 的攻击框架,通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制,并发现在 Patch-Fool 攻击下,ViTs 不一定比 CNNs 更具鲁棒性。
Mar, 2022
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文探讨了基于 Transformer 的网络架构如 Vision Transformer(ViT)的鲁棒性问题,并针对输入扰动和模型扰动等多个方面进行了实验比较,发现在使用足够的数据量进行预训练的情况下,ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时,实验还发现虽然后面的层激活之间高度相关,但每一层都对分类起到了重要作用。
Mar, 2021
本文研究视觉变换器(ViTs)在黑盒情况下对抗性攻击的脆弱性,并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法,通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度,并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明,与对卷积神经网络的最新攻击相比,我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲,充分验证了 ViTs 在对抗性攻击下的脆弱性。
Jun, 2024
研究发现,很多 ViT 组件对鲁棒性有害,因此提出使用鲁棒组件构建 Robust Vision Transformer(RVT)网络,并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能,实验结果显示 RVT 在多项鲁棒性测试中表现优秀。
May, 2021
本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究,实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理解。
Jun, 2021
利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性,同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上,在 2% 区域补丁攻击下,本文方法达到 41.70% 的证明准确度,比之前最佳方法高出近 1 倍(26.00%)。同时,本方法达到了 78.58% 的干净准确度,接近正常 ResNet-101 的准确度,并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。
Mar, 2022
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023