关键词引导下的高效图像 - 文本检索预筛选

Mar, 2023

关键词引导下的高效图像 - 文本检索预筛选

Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening

Min Cao, Yang Bai, Jingyao Wang, Ziqiang Cao, Liqiang Nie...

TL;DR该论文提出了一种关键词指导的预筛选框架来提高图像 - 文本检索的效率，包括关键词匹配和多标签分类方法，并借助倒排索引实现时空复杂度的双赢。经过 Flickr30K 和 MS-COCO 两个广泛使用的数据集的实验证明，该框架能够实现 $O (1)$ 的查询时间复杂度，提高检索效率，而不降低性能。

Abstract

Under the flourishing development in performance, current image-text retrieval methods suffer from $N$-related time complexity, which hinders their application in practice. Targeting at efficiency improvement, this paper presents a simple and effective keyword-guided →

image-text retrieval efficiency improvement pre-screening keyword matching inverted index

发现论文，激发创造

跨模态图像 - 文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景，提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

通过多模态蕴含修订图像 - 文本检索

本论文提出了一种多模态蕴含分类器来确定图像的语句，以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中，我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明，所提出的蕴含分类器达到了约 78% 的准确度，并持续提高了图像文本检索基线的性能。

Aug, 2022

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024

远程感知影像的知识感知文本 - 影像检索

通过使用外部知识图谱挖掘相关信息，我们提出了一种适用于遥感图像的知识感知文本 - 图像检索（KTIR）方法，该方法丰富了搜索查询中可用的文本范围，缓解了文本和图像之间的信息差距，实现更好的匹配。实验结果表明，该方法在遥感文本 - 图像检索中表现出优异的检索能力，超越了现有的最先进方法。

May, 2024

图像检索中的文本与图像构成 - 实证之旅

本文提出了一种基于图像和文本相结合的检索方法，利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述，并在三种不同数据集上进行了验证，证明了该方法在输入查询分类和图像检索方面的有效性。

Dec, 2018

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

VisualTextRank：基于图结构无监督内容提取技术，用于自动化广告文本到图像搜索

研究了如何通过关键词提取，实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志，VisualTextRank 算法成功解决了该问题，它通过提取广告文本（或文本增强版本）中的关键词来生成广告图片查询，显著提高了图片搜索准确度达 11%。

Aug, 2021