视觉 Transformers 是强大的学习器
研究发现,很多 ViT 组件对鲁棒性有害,因此提出使用鲁棒组件构建 Robust Vision Transformer(RVT)网络,并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能,实验结果显示 RVT 在多项鲁棒性测试中表现优秀。
May, 2021
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021
本研究阐述 Vision Transformers(ViTs)在自我关注机制的作用下,实现了对多种数据干扰的强大稳健性,并且提出了一族全注意网络(FANs),以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1%的最新准确度和 35.8%的 mCE,并且在两个下游任务中实现了最新的准确性和稳健性:语义分割和物体检测。
Apr, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文探讨了基于 Transformer 的网络架构如 Vision Transformer(ViT)的鲁棒性问题,并针对输入扰动和模型扰动等多个方面进行了实验比较,发现在使用足够的数据量进行预训练的情况下,ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时,实验还发现虽然后面的层激活之间高度相关,但每一层都对分类起到了重要作用。
Mar, 2021
本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究,实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理解。
Jun, 2021
通过研究广泛任务中视觉变换器(ViTs)与卷积神经网络(CNNs)的对比,探讨了 ViTs 的多属性学习能力,并提出了通过单个 ViT 网络训练多个属性的简单而有效的策略。通过对 CelebA 数据集的实证研究,验证了多属性 ViTs 在对抗攻击和 Patch-Fool 等最新变换器攻击下的鲁棒性。
Feb, 2024
在本文中,我们通过在三个具有挑战性的基准数据集上的实验,系统地研究了视觉变换器对于伪相关性的稳健性,并将其与受欢迎的 CNN 进行了比较。我们的研究表明,当在足够大的数据集上进行预训练时,视觉变换器比 CNN 更具稳健性。他们的成功关键在于能够更好地从不满足伪相关性的示例中进行泛化。此外,我们进行了大量消融和实验来理解自我关注机制在在伪相关环境下提供稳健性的作用,我们希望我们的工作可以启发未来进一步了解 ViT 模型的稳健性。
Mar, 2022
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023