CVPRMar, 2023

Visual Atoms: 使用正弦波预训练视觉 Transformer

TL;DR使用循环谐波的新方法,探讨了基于轮廓的合成数据集的设计空间,发现增加数据集中的图像数量和种类是关键因素,在新数据集 VisualAtom-21k 上进行预训练后,fine-tuning 在 ImageNet-1k 上的 top-1 准确率达到了 83.7%,与 JFT-300M 预训练相比,图像数量缩小到 1/14,解决了真实图像所带来的问题。