Sep, 2023
消除 CLIP 数据的神秘
Demystifying CLIP Data
Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes...
TL;DR以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率,并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。