Nov, 2021

使用 Vision Transformers 对检测迁移学习进行基准测试

TL;DR本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术,使用五种 ViT 初始化方法进行实验比较,结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进,随着模型大小的增加,这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。