多重查询图像检索的分层匹配和推理

Jun, 2023

多重查询图像检索的分层匹配和推理

Hierarchical Matching and Reasoning for Multi-Query Image Retrieval

Zhong Ji, Zhihao Li, Yan Zhang, Haoran Wang, Yanwei Pang...

TL;DR本研究提出一种分层匹配与推理网络，用于多重文本查询下的图像检索，并在基准数据集上进行广泛实验测试，表明我们的HMRN显著优于现有的最佳方法。

Abstract

As a promising field, multi-query image retrieval (MQIR) aims at searching for the semantically relevant image given multiple region-specific text queries. Existing works mainly focus on a single-level similarity

发现论文，激发创造

图像文本匹配的交叉堆叠注意力

本文研究图像文本匹配问题，提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐，从而推断图像与文本之间的相似性，实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。

Mar, 2018

图像-文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在MS-COCO和Flickr30K数据集上取得了相对于最佳方法分别为6.8％和4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K数据集上分别提高了12.6％和5.8％的图像检索和字幕检索。

Sep, 2019

图文匹配的相似性推理与过滤

本研究针对图像和文本匹配问题，提出了一种新颖的基于相似性图推理和注意力过滤的网络模型(SGRAF)，通过学习矢量化的相似性表示，利用局部和全局对齐信息进行关系感知相似度计算，并通过注意力机制选择性地整合对齐信息，实现了在Flickr30K和MSCOCO数据集上取得最新的最佳表现。

Jan, 2021

基于逐层分步对齐的图像-文本匹配网络

本文提出了一种逐步分层对齐网络 (SHAN) 的图像 - 文本匹配方法，将图像 - 文本匹配分解成多步跨模态推理过程以捕捉层次化的细粒度相关性，并在两个基准数据集上进行了实验。

Jun, 2021

ARTEMIS：基于注意力机制的文本显式匹配与隐式相似度检索

该论文通过观察文本到图像和图像到图像检索两者的关系，提出并验证了一种利用特殊关系而不需预训练大型架构等辅助信息，且表现最优秀的基于注意力机制协调图像和自由格式文本修饰符检索的方法。

Mar, 2022

ALADIN：用于高效图像-文本匹配和检索的细粒度对齐分数压缩

本文提出了一种名为ALADIN的图文匹配方法，该方法通过精细的图像文本层次对齐产生高效得分，并通过蒸馏从层次对齐中获得的相关性得分，学习共享的嵌入空间，可在近乎90倍的速度下与最先进的VL Transformer网络相竞争，具有横跨视觉和语言的领先地位。

Jul, 2022

可学习的基于支柱的图像-文本重排序

本文提出了一种新的可学习的基于框架的重新排序范式，该范式可以捕捉图片和文本之间的邻居关系，提高单模态检索任务的性能。实验结果表明，该范例具有很好的鲁棒性和推广性能力，并且可以在不同的基础模型上取得很好的效果。

Apr, 2023

基于层次结构的视觉和语义相似度融合图像检索

提出了一种基于内容的图像检索方法，通过构建视觉层次结构来捕捉视觉和语义的相似性，将其融合到相似度搜索的距离计算度量中，实验证明该方法在图像检索方面具有优越性能。

Aug, 2023

组合图像检索的双重关系对齐

我们提出了一种新的合成图像检索框架，名为双关系对齐，它将显式和隐式关系相结合，充分利用三元组之间的相关性，通过融合参考图像和目标图像设计了一个视觉组合器，显著提升了合成图像检索性能。

Sep, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了10%的召回率改善。

Apr, 2024