Oct, 2021

无处不在的监管:一种数据高效的对比语言图像预训练范式

TL;DR本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现60.4%的零样本top1准确率,并在转化到下游任务时优于常规CLIP模型。