无训练的零样本复合图像检索方法:加权模态融合与相似性
本文提出了一种不需要标记的数据集来解决CIR问题的新方法Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的SEARLE方法,同时提出了一个名为CIRCO的真实场景数据集,实验表明SEARLE在CIRCO数据集上的表现优于基线方法。
Mar, 2023
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过CLIP进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
我们提出了一种只使用语言进行训练的新型CIR框架,名为LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR通过这种简单的策略,非常高效且高效,LinCIR搭配CLIP ViT-G骨干网络在48分钟内进行训练,在CIRCO、GeneCIS、FashionIQ和CIRR四个不同的CIR基准上展现出最佳的零-shot CIR性能,甚至在FashionIQ上超过了有监督方法。
Dec, 2023
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法(TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制(LCR)来聚焦于从修改指令中提取的有区别的局部信息。在三个ZS-CIR基准测试上的大量实验证明了该方法在开放领域数据集CIRR、CIRCO以及时尚领域数据集FashionIQ上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
Dec, 2023
我们提出了一种新的半监督图像检索方法,通过在辅助数据中搜索参考图像及其相关目标图像,并学习基于大型语言模型的视觉差异生成器(VDG),以生成描述两个图像之间视觉差异(即视觉增量)的文本。VDG具备流畅的语言知识和模型无关性,能够生成伪三元组来提升组合图像检索模型的性能。我们的方法显著改进了现有的监督学习方法,并在组合图像检索基准测试中取得了最先进的结果。
Apr, 2024
通过使用球形线性插值(Slerp)和文本锚定调整(TAT)方法,我们提出了一种新的零样本合成图像检索(ZS-CIR)技术,使得图像和文本的融合嵌入更加准确,从而实现了在合成图像检索基准上的最先进的检索性能。
May, 2024
基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到CLIP标记嵌入空间的伪词标记中,并与相关说明结合。为促进ZS-CIR的研究,我们提供了一个名为CIRCO的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的CIR数据集。实验结果表明,iSEARLE在三个不同的CIR数据集(FashionIQ、CIRR和CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此https URL上公开可用。
May, 2024
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy through novel target-anchored contrastive learning for text encoders.
Jun, 2024
本文提出了一种使用合成标签来提升零样本图像检索性能的混合检索方法(HyCIR),使用了合成CIR三元组和对比学习两种策略,实现了在CIRR和CIRCO等常见图像检索基准中的零样本任务的最新性能。
Jul, 2024
本研究解决了在监督下训练组合图像检索模型所需的繁重数据收集问题。提出了一种无需训练的零-shot图像检索新方法WeiMoCIR,采用简单的加权平均将图像与文本模态有效结合。实验结果验证了该方法在FashionIQ和CIRR数据集上的优越性能,突显了其在图像搜索领域的潜在影响。
Sep, 2024