Apr, 2021
自监督视觉Transformer中的新兴特性
Emerging Properties in Self-Supervised Vision Transformers
TL;DR本研究探讨自监督学习是否为Vision Transformer (ViT)提供了与卷积网络 (convnets)相比更为突出的新特性,发现自监督ViT特征明确包含图像的语义分割信息,在ImageNet数据集中取得了78.3%的top-1准确率,并将这些发现用于自监督方法DINO中,通过线性评估,使ViT-Base在ImageNet数据集中取得了80.1%的top-1准确率。