Mar, 2024

高效对比语言-图像预训练:数据质量优先于数量

TL;DR我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高Contrastive Language-Image Pre-training模型的泛化性能,并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明,我们的子集相比其他基线方法,可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度,同时,在11个下游数据集中平均准确度达到其他基线方法的1.5倍。