视觉 Transformer 对虚假相关性的鲁棒性研究

Mar, 2022

视觉 Transformer 对虚假相关性的鲁棒性研究

Are Vision Transformers Robust to Spurious Correlations?

Soumya Suvra Ghosal, Yifei Ming, Yixuan Li

TL;DR在本文中，我们通过在三个具有挑战性的基准数据集上的实验，系统地研究了视觉变换器对于伪相关性的稳健性，并将其与受欢迎的 CNN 进行了比较。我们的研究表明，当在足够大的数据集上进行预训练时，视觉变换器比 CNN 更具稳健性。他们的成功关键在于能够更好地从不满足伪相关性的示例中进行泛化。此外，我们进行了大量消融和实验来理解自我关注机制在在伪相关环境下提供稳健性的作用，我们希望我们的工作可以启发未来进一步了解 ViT 模型的稳健性。

Abstract

deep neural networks may be susceptible to learning spurious correlations that hold on average but not in atypical test samples. As with the recent emergence of vision transformer (ViT) models, it remains underex

deep neural networks spurious correlations vision transformers robustness self-attention mechanism

发现论文，激发创造

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

理解视觉 Transformer 中的鲁棒性

本研究阐述 Vision Transformers（ViTs）在自我关注机制的作用下，实现了对多种数据干扰的强大稳健性，并且提出了一族全注意网络（FANs），以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1％的最新准确度和 35.8％的 mCE，并且在两个下游任务中实现了最新的准确性和稳健性：语义分割和物体检测。

Apr, 2022

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021

理解 Transformer 模型在图像分类中的稳健性

本文探讨了基于 Transformer 的网络架构如 Vision Transformer（ViT）的鲁棒性问题，并针对输入扰动和模型扰动等多个方面进行了实验比较，发现在使用足够的数据量进行预训练的情况下，ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时，实验还发现虽然后面的层激活之间高度相关，但每一层都对分类起到了重要作用。

Mar, 2021

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

探讨视觉变换器在医学图像分类中对标签噪声的稳健性

医学图像分类数据集中的标签噪声严重影响了受监督深度学习方法的训练，削弱了其泛化能力。本文研究了 Vision Transformer (ViT) 相对于 CNN 的鲁棒性，以及其处理医学图像分类中标签噪声的能力，并使用两个医学图像分类数据集进行了实验验证。

Feb, 2024

视觉 Transformer 中的多样特征学习以提高泛化性能

通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性，我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。

Aug, 2023

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021