Apr, 2023

DataComp:寻找下一代多模数据集

TL;DRDataComp 基准测试是一个围绕 Common Crawl 的约 128 亿个图像文本对的数据集实验平台,通过提出新的训练集来激励数据集的研究。通过应用简单的过滤算法,DataComp-1B 被创建并用于训练一个 CLIP ViT-L / 14 模型,使其在 ImageNet 上达到 79.2%的零 - shot 准确率,表明通过精心策划的训练集可能会提高模型的性能。