优化视觉 Transformer 的相关性地图以提高鲁棒性
本研究阐述 Vision Transformers(ViTs)在自我关注机制的作用下,实现了对多种数据干扰的强大稳健性,并且提出了一族全注意网络(FANs),以加强注意通道处理设计的能力。我们的模型在 ImageNet-1k 和 ImageNet-C 上达到了 87.1%的最新准确度和 35.8%的 mCE,并且在两个下游任务中实现了最新的准确性和稳健性:语义分割和物体检测。
Apr, 2022
通过在注意机制中使用背景遮罩的新方法,视觉 Transformers 在计算病理学中的背景抑制中取得了可比的性能,提供了更准确和临床意义的注意热图。
Apr, 2024
本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer(SM-ViT)方法来在精细 - grained 视觉分类(FGVC)问题中捕捉潜在的可区分特征,进而提高视觉 Transformer 模型的分类性能。实验证明,SM-ViT 比现有的基于 ViT 的方法表现更优秀,需要更少的资源和较低的输入图像分辨率。
May, 2023
提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。
Sep, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。
Jun, 2021
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
我们的研究调查了背景引起的偏见对细粒度图像分类的影响,并评估了卷积神经网络和视觉变换器等标准骨干模型在不同遮罩策略下的行为,得出早期遮罩在 ODD 性能方面表现最佳的结论。
Aug, 2023
通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性,我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。
Aug, 2023
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021