性能改进来自何处?—— 关于图像文本检索可重现性的担忧
通过图文组合检索,通过由图像加上一些描述所构成的查询准确检索目标图像,在真实世界的损坏和进一步的文本理解下进行了坚固性研究,建立了三个用于系统分析的新的多样化基准,对视觉和文本的图文组合检索进行评估,包括自然失真的分析和文本理解的论证。
Nov, 2023
研究中,我们提出了一个统一框架,以多模态大型语言模型(MLLMs)为背景,探索了文本到图像生成和检索之间的关系,并引入了一种生成检索方法,在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估,并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验,证明了我们提出方法的优越性和效果。
Jun, 2024
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
研究使用检索增强模型来提高计算机视觉任务的识别能力,引入了一种基于注意力机制的记忆模块,学习从外部记忆集合中检索出的每个例子的重要性,证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处,并在 ImageNet-LT,Places-LT 和 Webvision 数据集中取得了最先进的准确性。
Apr, 2023
本文全面介绍了跨模态图像 - 文本检索的研究进展,包括特征提取、特征对齐、效率优化以及预训练,讨论了一些关键但较少被研究的问题,并对代表性方法进行了精度比较。
Mar, 2022
本文针对图文检索中的细粒度语义匹配问题,以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景,提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法,并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。
Apr, 2023
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023
本文介绍了一个新的数据集 ReMuQ,针对跨媒体检索的任务,提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`,并引入了一个新的预训练任务,实现了对多模态查询的知识检索,并在两个数据集上取得了优秀的检索效果。
Jun, 2023
该论文提出了一种关键词指导的预筛选框架来提高图像 - 文本检索的效率,包括关键词匹配和多标签分类方法,并借助倒排索引实现时空复杂度的双赢。经过 Flickr30K 和 MS-COCO 两个广泛使用的数据集的实验证明,该框架能够实现 $O (1)$ 的查询时间复杂度,提高检索效率,而不降低性能。
Mar, 2023
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023