零样本组合文本 - 图像检索
提出了一种考虑查询目标关系的零样本组合图像检索方法,通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络,预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。
Jun, 2024
我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR 通过这种简单的策略,非常高效且高效,LinCIR 搭配 CLIP ViT-G 骨干网络在 48 分钟内进行训练,在 CIRCO、GeneCIS、FashionIQ 和 CIRR 四个不同的 CIR 基准上展现出最佳的零 - shot CIR 性能,甚至在 FashionIQ 上超过了有监督方法。
Dec, 2023
本文提出了一种不需要标记的数据集来解决 CIR 问题的新方法 Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的 SEARLE 方法,同时提出了一个名为 CIRCO 的真实场景数据集,实验表明 SEARLE 在 CIRCO 数据集上的表现优于基线方法。
Mar, 2023
基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果表明该方法能够更好地应对真实检索场景,提高检索的准确性和效率。
Mar, 2024
提出了一种名为 Pic2Word 的方法,该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的 CIR 模型。
Feb, 2023
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 ZS-CIR 基准测试上的大量实验证明了该方法在开放领域数据集 CIRR、CIRCO 以及时尚领域数据集 FashionIQ 上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
Dec, 2023
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过 CLIP 进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为 Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为 iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到 CLIP 标记嵌入空间的伪词标记中,并与相关说明结合。为促进 ZS-CIR 的研究,我们提供了一个名为 CIRCO 的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的 CIR 数据集。实验结果表明,iSEARLE 在三个不同的 CIR 数据集(FashionIQ、CIRR 和 CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此 https URL 上公开可用。
May, 2024
本研究提出了一个基于 Transformers 的模型 CIRPLANT,使用人类自然语言条件进行直观特征的修改,并结合最近邻方法实现图像的检索,实验结果表明该模型在开放域图像检索中具有很好的性能。
Aug, 2021
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy through novel target-anchored contrastive learning for text encoders.
Jun, 2024