本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
Jul, 2016
该论文提出了Cross-modal Hybrid Transfer Network (CHTN),包含两个子网络:Modal-sharing transfer subnetwork和Layer-sharing correlation subnetwork,用于在不同模态之间进行知识迁移和跨模态检索。
Jun, 2017
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在MSCOCO数据集上实现了最先进的跨模态检索结果。
Nov, 2017
该论文提出一种新的语义相似度评估指标SemanticMap来评估跨模态检索系统的性能,并且提出了基于单流网络的新型跨模态检索系统,该系统使用深度神经网络训练,并在MSCOCO和Flickr30K数据集上进行了评估。
Sep, 2019
本篇研究提出了一种方法,使用特定的loss函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本文提出了一个新的数据集,使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法,其中包括更好的场景文本感知交叉检索方法,它使用了来自标题和视觉场景文本的专门表示,并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益,并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。
Dec, 2020
本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法,该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在CUB数据集上测试,证明了该方法不仅能提高检索性能,而且可以提供可解释性和不确定性的嵌入表示。
Jan, 2021
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本文针对图文检索中的细粒度语义匹配问题,以MSCOCO-Test-5K和Flickr30K-Test-1K数据集不足的情况为背景,提出了将其重建为MSCOCO-FG和Flickr30K-FG等数据集的方法,并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。
Apr, 2023
提出两种不同的方法来解决跨模态检索的问题,一种基于CLIP对任意数量的输入模式进行扩展,而第二种方法通过回归跨模态相似性来解决协调问题,并在多个数据集上进行实验证明其简单有效,并允许以新的方式解决检索问题。
Jan, 2024