ICCVMay, 2024

iSEARLE:改进文本线性进行零样本组合图像检索

TL;DR基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为 Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为 iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到 CLIP 标记嵌入空间的伪词标记中,并与相关说明结合。为促进 ZS-CIR 的研究,我们提供了一个名为 CIRCO 的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的 CIR 数据集。实验结果表明,iSEARLE 在三个不同的 CIR 数据集(FashionIQ、CIRR 和 CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此 https URL 上公开可用。