Jan, 2024

大规模自回归图像模型的可扩展预训练

TL;DR这篇论文介绍了 AIM,一种根据自回归目标预训练的视觉模型集合。这些模型受到了文本模型的启发,并展现了类似的规模扩展性。重点提到两个关键发现:(1)视觉特征的性能随模型容量和数据量的增加而提高,(2)目标函数的价值与模型在下游任务上的性能相关。通过预先训练一架 70 亿参数、使用 20 亿图像的 AIM,在 ImageNet-1k 上使用冻结的主干获得了 84.0% 的准确率。有趣的是,即使在这样的规模下,我们观察不到性能饱和的迹象,这表明 AIM 可能代表了训练大规模视觉模型的一个新的前沿。AIM 的预训练类似于 LLM 的预训练,并不需要任何图像特定的策略来稳定规模化训练。