提升视觉变换器的忠实度
本文对视觉Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于MLP-Mixer和卷积神经网络(CNNs),ViTs拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现ViTs所学习的特征中包含的高频模式较少,这有助于解释为什么ViTs对高频扰动较不敏感,并且现代CNN设计可以帮助填补ViTs和CNNs表现的差距。
Mar, 2021
本文旨在研究Vision Transformer对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的ImageNet数据集上与SOTA卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释ViT为什么是更加稳健的学习器。
May, 2021
本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用ViT以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文将ViTs和MLP-Mixers从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高ViTs和MLP-Mixers的准确性和鲁棒性。
Jun, 2021
本文旨在从减小训练存储开销和推理复杂度的角度,提出一种先将Vision transformers稀疏化,然后再训练的方法,从而实现一定的加速效果并保持较高的精度。
Jun, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现ViTs对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高ViT对对抗性攻击的鲁棒性。
Nov, 2021
本论文探讨了ViTs和CNNs在面对各种对抗攻击时的鲁棒性及其背后的因素,提出了一种名为Patch-Fool的攻击框架,通过对单个patch进行一系列attention-aware优化技术的攻击来愚弄其self-attention机制,并发现在Patch-Fool攻击下,ViTs不一定比CNNs更具鲁棒性。
Mar, 2022
本文研究使用Vision Transformers架构在对抗训练中对抗外部攻击的鲁棒性问题,并使用ImageNet数据集的子集进行严格的消融研究,找到了一种改进后的训练方法,可以在不使用强数据增强的情况下提高模型的性能和识别鲁棒性。
Sep, 2022
我们引入了一种新的培训过程,通过训练促进模型的可解释性,从而解决Vision Transformers在解释性方面的不足,并提出了IA-ViT模型,通过单头自注意机制提供忠实的解释,有效地应用于几个图像分类任务。
Sep, 2023