Feb, 2024

小规模数据上轻量级视觉变形器的预训练与图像最小缩放

TL;DR轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。