基于视觉和语言的无需训练的组合图像检索

Oct, 2023

基于视觉和语言的无需训练的组合图像检索

Vision-by-Language for Training-Free Compositional Image Retrieval

Shyamgopal Karthik, Karsten Roth, Massimiliano Mancini, Zeynep Akata

TL;DR通过使用大规模视觉语言模型（VLMs）和大型语言模型（LLMs）并基于文本目标修改对参考图像进行标题化，然后通过 CLIP 进行检索，我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法，以训练免费的方式解决 CIR 问题，并取得了与有监督的方法相竞争的性能。

Abstract

Given an image and a target modification (e.g an image of the Eiffel tower and the text "without people and at night-time"), compositional image retrieval (CIR) aims to retrieve the relevant target image in a database. While supervised approaches rely on annotating triplets that is cos

compositional image retrieval zero-shot cir vision-by-language large-scale vlms modular language reasoning

发现论文，激发创造

仅语言实现高效训练的零样本组合图像检索

我们提出了一种只使用语言进行训练的新型 CIR 框架，名为 LinCIR，通过一种名为自掩蔽投影（SMP）的新颖自我监督方法，将文本的潜在嵌入投影到标记嵌入空间，并构建一个新的文本，替换原始文本中的关键词标记，从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR 通过这种简单的策略，非常高效且高效，LinCIR 搭配 CLIP ViT-G 骨干网络在 48 分钟内进行训练，在 CIRCO、GeneCIS、FashionIQ 和 CIRR 四个不同的 CIR 基准上展现出最佳的零 - shot CIR 性能，甚至在 FashionIQ 上超过了有监督方法。

Dec, 2023

零样本组合图像检索与文本倒置

本文提出了一种不需要标记的数据集来解决 CIR 问题的新方法 Zero-Shot CIR，并介绍了一个基于视觉特征和文本描述的 SEARLE 方法，同时提出了一个名为 CIRCO 的真实场景数据集，实验表明 SEARLE 在 CIRCO 数据集上的表现优于基线方法。

Mar, 2023

使用预训练的视觉语言模型在现实生活图像上进行图像检索

本研究提出了一个基于 Transformers 的模型 CIRPLANT，使用人类自然语言条件进行直观特征的修改，并结合最近邻方法实现图像的检索，实验结果表明该模型在开放域图像检索中具有很好的性能。

Aug, 2021

基于图像到句子的不对称零样本组合图像检索

基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法，通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中，结合文本修饰符进一步提取图像的视觉信息，使用轻量级模型进行查询，大规模 VL 模型用于图库，实验结果表明该方法能够更好地应对真实检索场景，提高检索的准确性和效率。

Mar, 2024

无训练的零样本组合图像检索和本地概念重新排序

本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR)，通过将查询翻译成易于理解的文本，提高计算效率并保持模型的泛化性。此外，引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 ZS-CIR 基准测试上的大量实验证明了该方法在开放领域数据集 CIRR、CIRCO 以及时尚领域数据集 FashionIQ 上实现了与最先进方法相当的性能，并明显优于其他无需训练的方法。

Dec, 2023

iSEARLE：改进文本线性进行零样本组合图像检索

基于图像和相关说明的复合图像检索（CIR）是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为 Zero-Shot CIR（ZS-CIR）的新任务，该任务不需要有标签的训练数据集，提出了一种名为 iSEARLE（改进的无监督复合图像检索）的方法，该方法将参考图像的视觉信息映射到 CLIP 标记嵌入空间的伪词标记中，并与相关说明结合。为促进 ZS-CIR 的研究，我们提供了一个名为 CIRCO 的开放领域基准数据集，这是第一个每个查询都用多个真实值和语义分类进行标记的 CIR 数据集。实验结果表明，iSEARLE 在三个不同的 CIR 数据集（FashionIQ、CIRR 和 CIRCO）以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此 https URL 上公开可用。

May, 2024

零样本组合文本 - 图像检索

本文介绍了一个新方法，通过多模态信息的融合来准确地检索符合查询的图像，并在零样本场景下，在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。

Jun, 2023

Pic2Word: 图片到词语的映射方法以进行零样本图像检索

提出了一种名为 Pic2Word 的方法，该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的 CIR 模型。

Feb, 2023

零样本组图检索，考虑到查询目标之间的关系，利用遮罩图像文本对

提出了一种考虑查询目标关系的零样本组合图像检索方法，通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络，预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。

Jun, 2024

大型多模态模型的视觉增量生成器用于半监督组合图像检索

我们提出了一种新的半监督图像检索方法，通过在辅助数据中搜索参考图像及其相关目标图像，并学习基于大型语言模型的视觉差异生成器（VDG），以生成描述两个图像之间视觉差异（即视觉增量）的文本。VDG 具备流畅的语言知识和模型无关性，能够生成伪三元组来提升组合图像检索模型的性能。我们的方法显著改进了现有的监督学习方法，并在组合图像检索基准测试中取得了最先进的结果。

Apr, 2024