视觉Transformer需寄存器
本研究提出一种基于纯Transformer模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列Transformer层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分解输入的空间和时间维度。尽管Transformer模型只在有大型训练数据集时有效,但我们展示了如何有效规范化模型,并利用预训练的图像模型,使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究,并在多个视频分类基准测试中实现了最先进的结果,包括Kinetics 400和600,Epic Kitchens,Something-Something v2和Moments in Time,优于基于深度3D卷积网络的先前方法。为了促进进一步的研究,我们在以下链接中发布了代码。
Mar, 2021
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督ViT训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
本研究探讨自监督学习是否为Vision Transformer (ViT)提供了与卷积网络 (convnets)相比更为突出的新特性,发现自监督ViT特征明确包含图像的语义分割信息,在ImageNet数据集中取得了78.3%的top-1准确率,并将这些发现用于自监督方法DINO中,通过线性评估,使ViT-Base在ImageNet数据集中取得了80.1%的top-1准确率。
Apr, 2021
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT在ImageNet线性探针评估中达到81.3%的top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT在18个数据集中的17个数据集上优于其受监督的对应物。代码和模型可公开获取:该URL。
Jun, 2021
研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中self-attention在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本文改进了一种用于训练Vision Transformer(ViT)的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为ViT的自我监督方法提供了更好的基线。
Apr, 2022
本文主要通过使用基于掩码图像建模的MAE pre-training方法,即MAE-lite,来为轻量级ViTs 的pre-training提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种pre-training的影响,揭示了pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个distillation策略来提高pre-trained representations,从而实现更好的性能。
May, 2022
本文设计了一种称为SelfPatch的简单而有效的视觉预训练任务,利用ViT的特性,在无需人工注释的情况下提高不同类型视觉任务的性能,通过训练神经网络对各种图像的无监督学习来实现。
Jun, 2022
研究显示ViTs在不同的学习方法下能够学习不同的行为,并发现了一些在不同学习方法下相似的ViT行为,比如Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当,并且在某些情况下对于部分任务还优于显式监督方法。此外,基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。
Dec, 2022
我们提出了一种利用自监督预训练的视觉Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督ViT的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023