Apr, 2022

DeiT III:ViT 的复仇

TL;DR本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。