图像检索中的图像 - 文本查询组合学习

Jun, 2020

图像检索中的图像 - 文本查询组合学习

Compositional Learning of Image-Text Query for Image Retrieval

Muhammad Umer Anwaar, Egor Labintcev, Martin Kleinsteuber

TL;DR本文研究了基于多模态（图像 - 文本）查询的图像检索问题，提出了自编码器模型 ComposeAE，采用深度度量学习方法学习了推动源图像和文本查询组成更接近目标图像的度量，并在 MIT-States、Fashion200k 和 FashionIQ 三个基准数据集上优于当前最先进的 TIRG 方法。

Abstract

In this paper, we investigate the problem of retrieving images from a database based on a multi-modal (image-text) query. Specifically, the query text prompts some modification in the query image and the task is to retrieve images with the desired modifications. For instance, a user of an E-Commerce platform is interested in buying a dress, which should look

multi-modal retrieval autoencoder deep metric learning rotational symmetry image-text composition

发现论文，激发创造

图像检索中的文本与图像构成 - 实证之旅

本文提出了一种基于图像和文本相结合的检索方法，利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述，并在三种不同数据集上进行了验证，证明了该方法在输入查询分类和图像检索方面的有效性。

Dec, 2018

利用加性注意力组合学习的图像搜索与文本反馈

该研究提出了一种称为 AACL 的方法，它基于多模式 Transformer 结构，可用于有效地检索类似于给定源图像的目标图像并且满足所提供的修改。在多项实验中，AACL 均实现了最新的最佳结果。

Mar, 2022

使用双重多模式编码器对合成图像检索进行候选集重新排序

该研究提出了一个两阶段模型：第一阶段使用常规向量距离度量，快速对候选项进行修剪；第二阶段采用双编码器体系结构，对参考文本 - 候选项 - 文本进行有效注视和重新排序，利用视觉和语言预训练网络，实现了组合先前方法的优点。

May, 2023

零样本组合文本 - 图像检索

本文介绍了一个新方法，通过多模态信息的融合来准确地检索符合查询的图像，并在零样本场景下，在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。

Jun, 2023

遥感图像的组合检索

本文介绍了一种应用于遥感的组合图像检索方法，该方法允许通过图像示例和文本描述在大型图像库中进行查询，丰富了对单模态查询（无论是视觉还是文本）的描述能力。我们介绍了一种融合了图像 - 图像和文本 - 图像相似度的新方法，证明了视觉 - 语言模型具有足够的描述能力，无需进一步的学习步骤或训练数据。我们提出了一个新的评估基准，重点关注颜色、上下文、密度、存在性、数量和形状的修改。本工作不仅在此任务中取得了最新的技术成果，同时也填补了遥感图像检索领域的空白。

May, 2024

文本 - 图像组合检索的鲁棒性评估

通过图文组合检索，通过由图像加上一些描述所构成的查询准确检索目标图像，在真实世界的损坏和进一步的文本理解下进行了坚固性研究，建立了三个用于系统分析的新的多样化基准，对视觉和文本的图文组合检索进行评估，包括自然失真的分析和文本理解的论证。

Nov, 2023

RTIC: 使用图卷积网络进行文本和图像组合的残差学习

本文研究了图像和文本的组合学习在图像检索中的应用，提出了一种新的基于图卷积网络的联合训练技术，实现了在不限制训练环境的情况下超越现有基准方法的最先进得分。

Apr, 2021

混合模态查询下的图像检索渐进式学习

本论文介绍一种将语音和图像相结合进行图像检索的复杂检索方法，从而需要语义空间学习和跨模态融合，同时提出了自我监督适应权重策略以更好地检索，通过广泛的实验，表明该方法在 Fashion-IQ 和 Shoes 基准数据集上的召回率均比现有方法提高了 24.9％和 9.5％。

Apr, 2022

组合图像检索的双重关系对齐

我们提出了一种新的合成图像检索框架，名为双关系对齐，它将显式和隐式关系相结合，充分利用三元组之间的相关性，通过融合参考图像和目标图像设计了一个视觉组合器，显著提升了合成图像检索性能。

Sep, 2023

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024