May, 2022

ImageNet-1k 更好的纯 ViT 基线

TL;DR本文发现在 ImageNet-1k 规模的数据集上,Vision Transformer 模型不需要复杂的正则化技术,标准的数据增强足以提高模型表现。作者提出几种修改方式,能在较短时间内显著提高模型性能,实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度,达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练,模型可以在不到一天的时间内达到 80% 的 top-1 精度。