跨模态图像 - 文本检索基准的重新思考
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
Oct, 2021
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。
Sep, 2019
本文提出了一个新的评估基准来测试 ITM 模型的稳健性,加入了各种欺骗性图像和标题来检测模型。结果发现,添加这些图像和标题会降低 SOTA 模型的性能,预计这些结果能提高模型的鲁棒性和引入更多的评估方法。
Apr, 2023
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本篇论文首先构建了一个细粒度跨媒体检索的新基准,包括 4 种介质类型,然后提出了一个统一的深度模型 - FGCrossNet,通过联合考虑三个约束条件,即分类约束、中心约束和排名约束,以实现更好的公共表示学习。广泛的实验证明了新基准的实用性和我们的 FGCrossNet 的有效性。
Jul, 2019
该论文提出一种新的语义相似度评估指标 SemanticMap 来评估跨模态检索系统的性能,并且提出了基于单流网络的新型跨模态检索系统,该系统使用深度神经网络训练,并在 MSCOCO 和 Flickr30K 数据集上进行了评估。
Sep, 2019
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
本文提出了一个新的数据集,使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法,其中包括更好的场景文本感知交叉检索方法,它使用了来自标题和视觉场景文本的专门表示,并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益,并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。
Dec, 2020