SiT:自监督视觉 Transformer
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督 ViT 训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT 在 ImageNet 线性探针评估中达到 81.3%的 top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取:该 URL。
Jun, 2021
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023
本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力,发现在相同的少样本学习框架下,用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能;本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架,用于改善 token 依赖性问题,并通过实验证明了 SUN 优于其他同类技术,并超过了 CNN 的最新研究成果。
Mar, 2022
视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。
Jun, 2024