多属性视觉转换器的高效稳健学习

Feb, 2024

多属性视觉转换器的高效稳健学习

Multi-Attribute Vision Transformers are Efficient and Robust Learners

Hanan Gani, Nada Saadi, Noor Hussein, Karthik Nandakumar

TL;DR通过研究广泛任务中视觉变换器（ViTs）与卷积神经网络（CNNs）的对比，探讨了 ViTs 的多属性学习能力，并提出了通过单个 ViT 网络训练多个属性的简单而有效的策略。通过对 CelebA 数据集的实证研究，验证了多属性 ViTs 在对抗攻击和 Patch-Fool 等最新变换器攻击下的鲁棒性。

Abstract

Since their inception, vision transformers (ViTs) have emerged as a compelling alternative to convolutional neural networks (CNNs) across a wide spectrum of tasks. ViTs exhibit notable characteristics, including

vision transformers multi-attribute learning convolutional neural networks adversarial attacks patch-fool

发现论文，激发创造

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

关于视觉 Transformer 的对抗鲁棒性

本文对视觉 Transformer（ViT）的抗干扰性进行了全面的研究，发现相比于 MLP-Mixer 和卷积神经网络（CNNs），ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化，发现 ViTs 所学习的特征中包含的高频模式较少，这有助于解释为什么 ViTs 对高频扰动较不敏感，并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。

Mar, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

查询高效的硬标签黑盒攻击视觉变换器

本文研究视觉变换器（ViTs）在黑盒情况下对抗性攻击的脆弱性，并提出了一种名为 AdvViT 的新型查询高效的硬标签对抗性攻击方法，通过优化各个图像块的对抗扰动来降低扰动搜索空间的维度，并设计了一个权重掩码矩阵来进一步优化整个图像不同区域的扰动。实验结果表明，与对卷积神经网络的最新攻击相比，我们的 AdvViT 在相同查询预算下具有较低的 L2 范数扭曲，充分验证了 ViTs 在对抗性攻击下的脆弱性。

Jun, 2024

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

视觉 Transformer 对抗攻击鲁棒性揭示

本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究，实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析，对注意力模型进行了深入理解。

Jun, 2021

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021