知识增强的双流零样本合成图像检索
本文提出了一种不需要标记的数据集来解决 CIR 问题的新方法 Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的 SEARLE 方法,同时提出了一个名为 CIRCO 的真实场景数据集,实验表明 SEARLE 在 CIRCO 数据集上的表现优于基线方法。
Mar, 2023
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy through novel target-anchored contrastive learning for text encoders.
Jun, 2024
我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR 通过这种简单的策略,非常高效且高效,LinCIR 搭配 CLIP ViT-G 骨干网络在 48 分钟内进行训练,在 CIRCO、GeneCIS、FashionIQ 和 CIRR 四个不同的 CIR 基准上展现出最佳的零 - shot CIR 性能,甚至在 FashionIQ 上超过了有监督方法。
Dec, 2023
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 ZS-CIR 基准测试上的大量实验证明了该方法在开放领域数据集 CIRR、CIRCO 以及时尚领域数据集 FashionIQ 上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
Dec, 2023
基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为 Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为 iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到 CLIP 标记嵌入空间的伪词标记中,并与相关说明结合。为促进 ZS-CIR 的研究,我们提供了一个名为 CIRCO 的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的 CIR 数据集。实验结果表明,iSEARLE 在三个不同的 CIR 数据集(FashionIQ、CIRR 和 CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此 https URL 上公开可用。
May, 2024
基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果表明该方法能够更好地应对真实检索场景,提高检索的准确性和效率。
Mar, 2024
提出了一种名为 Pic2Word 的方法,该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的 CIR 模型。
Feb, 2023
提出了一种考虑查询目标关系的零样本组合图像检索方法,通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络,预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。
Jun, 2024
本文提出一种名为 Context-I2W 的新型上下文依赖映射网络,用于自适应将与描述相关的图像信息转换为描述的伪词标记,以实现准确的零样本组合图像检索(ZS-CIR)任务。通过动态学习旋转规则将相同的图像映射到特定任务的操作视图,并在多个可学习查询的指导下进一步捕获涵盖 ZS-CIR 任务中主要目标的局部信息,这两个互补模块共同实现将图像映射到上下文依赖的伪词标记,无需额外监督。我们的模型在包括域转换、对象组合、对象操作和属性操作在内的四个 ZS-CIR 任务上表现出很强的泛化能力,相对最佳方法提高了 1.88%至 3.60%的性能,并在 ZS-CIR 上取得了新的最先进结果。
Sep, 2023
本文介绍了一个新方法,通过多模态信息的融合来准确地检索符合查询的图像,并在零样本场景下,在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。
Jun, 2023