自我监督视觉 Transformer 训练的实证研究
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
研究显示 ViTs 在不同的学习方法下能够学习不同的行为,并发现了一些在不同学习方法下相似的 ViT 行为,比如 Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当,并且在某些情况下对于部分任务还优于显式监督方法。此外,基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。
Dec, 2022
本文提出了一种名为 Self-supervised vIsion Transformers (SiT) 的模型,使用多种自监督训练机制进行预训练,通过线性分类器对其学习特征进行评估,并在小规模数据集上进行下游分类任务,结果表明这种模型在自我监督学习上有很好的效果。
Apr, 2021
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022
使用自监督方法预训练的 Vision Transformer,成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型,其推理分辨率可以调整以平衡预测粒度和实时感知约束,并用作简单而强大的视觉伺服代理的骨干,用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。
Mar, 2022
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT 在 ImageNet 线性探针评估中达到 81.3%的 top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取:该 URL。
Jun, 2021
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力,发现在相同的少样本学习框架下,用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能;本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架,用于改善 token 依赖性问题,并通过实验证明了 SUN 优于其他同类技术,并超过了 CNN 的最新研究成果。
Mar, 2022
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023