缩放的 ReLU 对于训练视觉 Transformer 很重要
通过将卷积干部替换为小型的步幅为 2 的 3*3 卷积,研究人员证明了将视觉变换器模型的初始处理更改为标准卷积干部可以显著提高最终模型的稳定性,并提高峰值性能.
Jun, 2021
本文探讨了基于 Transformer 的网络架构如 Vision Transformer(ViT)的鲁棒性问题,并针对输入扰动和模型扰动等多个方面进行了实验比较,发现在使用足够的数据量进行预训练的情况下,ViT 模型的鲁棒性至少和 ResNet 的对应模型一样。同时,实验还发现虽然后面的层激活之间高度相关,但每一层都对分类起到了重要作用。
Mar, 2021
本文探讨了视觉 transformer(ViT)网络在小规模数据集上的训练问题,提出了通过重新解释卷积神经网络(CNN)的架构偏差作为 ViT 的初始化偏差,使其在小规模问题上表现出色,并保持其在大规模应用中的灵活性,该方法在诸多基准数据集(包括 CIFAR-10、CIFAR-100 和 SVHN)上实现了最先进的数据高效 ViT 学习性能。
Apr, 2024
本文介绍 ConvMixer 模型,它使用标准卷积来混合图像块,并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种,同时也优于经典的 ResNet 等视觉模型。
Jan, 2022
本文对视觉 Transformer(ViT)的抗干扰性进行了全面的研究,发现相比于 MLP-Mixer 和卷积神经网络(CNNs),ViTs 拥有更好的对抗性鲁棒性。经过频率分析和特征可视化,发现 ViTs 所学习的特征中包含的高频模式较少,这有助于解释为什么 ViTs 对高频扰动较不敏感,并且现代 CNN 设计可以帮助填补 ViTs 和 CNNs 表现的差距。
Mar, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
该论文基于自然污染和对抗攻击的影响,研究了视觉变压器(ViT)和卷积神经网络(CNN)在图像分类中的表现,发现 ViTs 对自然污染更具鲁棒性,但易受对抗性攻击,然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。
Nov, 2021
视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。
Mar, 2024
通过在视觉变换器上进行实验,我们发现当将注意力 softmax 替换为 ReLU 等点层激活时,通过将结果除以序列长度可以减轻准确性下降现象。我们在 ImageNet-21k 上对各种规模的视觉变换器进行训练的实验表明,对于计算扩展性而言,ReLU-attention 的性能可以接近或匹配 softmax-attention。
Sep, 2023
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021