通过柯西问题理解视觉 Transformers 的对抗稳健性

KDDAug, 2022

通过柯西问题理解视觉 Transformers 的对抗稳健性

Understanding Adversarial Robustness of Vision Transformers via Cauchy Problem

Zheng Wang, Wenjie Ruan

TL;DR本文通过理论证明和实证分析，探讨了 Vision Transformers 模型的稳健性，证实其在抵抗自然干扰和强攻击方面优于卷积神经网络，并且证明了模型的 Lipschitz 连续性，进一步分析了模型的关键因素和结构，发现 Multi-head Self-Attention 在抵抗弱攻击方面有所贡献，但在抵抗强攻击方面实际上会削弱模型的稳健性。

Abstract

Recent research on the robustness of deep learning has shown that Vision Transformers (ViTs) surpass the Convolutional Neural Networks (CNNs) under some perturbations, e.g., natural corruption, adversarial attacks

vision transformers robustness adversarial attacks multi-head self-attention lipschitz continuous

发现论文，激发创造

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

Patch-Fool：Vision Transformer 是否总是对对抗性扰动具有稳健性？

本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素，提出了一种名为 Patch-Fool 的攻击框架，通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制，并发现在 Patch-Fool 攻击下，ViTs 不一定比 CNNs 更具鲁棒性。

Mar, 2022

视觉 Transformer 对抗攻击鲁棒性揭示

本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究，实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析，对注意力模型进行了深入理解。

Jun, 2021

训练鲁棒性视觉 Transformer 的轻量级配方

本文研究使用 Vision Transformers 架构在对抗训练中对抗外部攻击的鲁棒性问题，并使用 ImageNet 数据集的子集进行严格的消融研究，找到了一种改进后的训练方法，可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。

Sep, 2022

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021

Vision Transformer 和 MLP-Mixer 在对抗鲁棒性方面与 CNN 的比较

本文比较了卷积神经网络 (CNN)、Vision Transformer (ViT) 和 MLP-Mixer 的抗对抗攻击性能，并发现新提出的网络结构 ViT 和 MLP-Mixer 比 CNN 更加鲁棒，其中频率分析表明，最具鲁棒性的 ViT 架构倾向于依赖于低频特征，而 MLP-Mixer 则极易受到普适性对抗扰动的影响。

Oct, 2021

理解视觉 Transformer 中的鲁棒性

本研究阐述 Vision Transformers（ViTs）在自我关注机制的作用下，实现了对多种数据干扰的强大稳健性，并且提出了一族全注意网络（FANs），以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1％的最新准确度和 35.8％的 mCE，并且在两个下游任务中实现了最新的准确性和稳健性：语义分割和物体检测。

Apr, 2022

查询高效的硬标签黑盒攻击视觉变换器

本文研究视觉变换器（ViTs）在黑盒情况下对抗性攻击的脆弱性，并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法，通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度，并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明，与对卷积神经网络的最新攻击相比，我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲，充分验证了 ViTs 在对抗性攻击下的脆弱性。

Jun, 2024

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021