ICCVAug, 2023

GrowCLIP: 面向大规模对比式语言图像预训练的数据感知自动模型扩展

TL;DR通过提出 GrowCLIP,一种基于数据驱动的自动模型增长算法,用于连续图像 - 文本对作为输入的对比性语言 - 图像预训练,本文研究了交叉语义先训练、仍在不断增长的数据、共享编码器、不同维度的增长效果,并使用带动量的参数继承来解决局部最小值问题。在 9 个下游任务的零样本图像分类中,相比现有方法,GrowCLIP 的平均准确率提高了 2.3%;至于零样本图像检索,在 Flickr30K 数据集上,GrowCLIP 的 top-1 图像到文本召回率提高了 1.2%。