Jun, 2021

Vision Transformers 的数据、增强和正则化训练

TL;DR本文通过系统的实证研究,发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差,从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型,比大规模数据集 JFT-300M 上的同类模型表现更好。