小规模数据上轻量级视觉变形器的预训练与图像最小缩放

Feb, 2024

Pre-training of Lightweight Vision Transformers on Small Datasets with Minimally Scaled Images

Jen Hong Tan

TL;DR轻量级视觉Transformer（ViT）可以通过预训练和最小的图像缩放，实现优于ResNet等卷积神经网络在小数据集和小图像分辨率上的性能，而不需要显著地增大图像。

Abstract

Can a lightweight vision transformer (ViT) match or exceed the performance of convolutional neural networks (CNNs) like ResNet on