提升视觉变换器的忠实度
本文提出了一种名为 DSA 的新颖框架,通过使用反对抗示例定位和遮蔽输入图像中的虚假特征,以实现公平性,同时不损失目标预测性能,进而提高了多个预测任务的公平保证。
Jan, 2023
本文通过理论证明和实证分析,探讨了 Vision Transformers 模型的稳健性,证实其在抵抗自然干扰和强攻击方面优于卷积神经网络,并且证明了模型的 Lipschitz 连续性,进一步分析了模型的关键因素和结构,发现 Multi-head Self-Attention 在抵抗弱攻击方面有所贡献,但在抵抗强攻击方面实际上会削弱模型的稳健性。
Aug, 2022
本文介绍一种防御性扩散技术,用于消除攻击性噪声,提高 ViT 在医学应用中的可靠性。此外,本文提出将知识蒸馏与该框架相结合,以获得计算效率高且对灰盒攻击具有鲁棒性的轻量级学生模型。通过对可公开获取的结核杆菌 X 射线数据集的广泛实验,证明了我们提出的架构达到了计算效率和改进鲁棒性的目的, 超越了 SOTA 基准方法 SEViT。
May, 2023
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021
本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale,能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。
Mar, 2022
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
提出了一种用于 Vision Transformer 模型的无标签白盒攻击方法,该方法在各种黑盒模型之间表现出较强的迁移性,包括大多数 Vision Transformer 变体、CNN 和 MLP,甚至是针对其他模态开发的模型。攻击的灵感来自于 Vision Transformer 中的特征重叠现象,其中关键的注意力机制过度依赖于特征的低频成分,导致中 - 末层的特征趋向相似并最终崩塌。提出的特征多样性攻击者可以自然加速这一过程,达到卓越的性能和可转移性。
Mar, 2024
本论文探讨了 ViTs 和 CNNs 在面对各种对抗攻击时的鲁棒性及其背后的因素,提出了一种名为 Patch-Fool 的攻击框架,通过对单个 patch 进行一系列 attention-aware 优化技术的攻击来愚弄其 self-attention 机制,并发现在 Patch-Fool 攻击下,ViTs 不一定比 CNNs 更具鲁棒性。
Mar, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021