May, 2024
iSEARLE:改进文本线性进行零样本组合图像检索
iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image
Retrieval
TL;DR基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到CLIP标记嵌入空间的伪词标记中,并与相关说明结合。为促进ZS-CIR的研究,我们提供了一个名为CIRCO的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的CIR数据集。实验结果表明,iSEARLE在三个不同的CIR数据集(FashionIQ、CIRR和CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此https URL上公开可用。