Nov, 2023

预训练时像推理一样:掩码调整提升零样本复合图像检索

TL;DR本文介绍了一种新的非标注、预训练的掩码调整方法,以减少预训练模型与下游组合图像检索任务之间的差距,并通过将视觉 - 语言对比学习重新定义为组合图像检索任务,并提出掩码调整来学习原始图像的修改,进而捕捉到细粒度的文本引导修改。广泛的实验证明了我们方法在 FashionIQ、CIRR 和 CIRCO 三个组合图像检索数据集上相对于基线模型具有显著的优势。