提出两种不同的方法来解决跨模态检索的问题,一种基于 CLIP 对任意数量的输入模式进行扩展,而第二种方法通过回归跨模态相似性来解决协调问题,并在多个数据集上进行实验证明其简单有效,并允许以新的方式解决检索问题。
Jan, 2024
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
本文提出了一个结合多模态学习嵌入与持续学习的框架,研究了新任务导致了的困扰与不同因素造成的遗忘,发现索引阶段对任务效果有显著影响,并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。
Apr, 2021
本文提出了一种名为交叉模态相似性转移的方法,以无监督的方式学习和保持不成对但语义上相似的数据项目之间的联系,并在类别和对排序检索任务中表现出了优于现有技术的结果。
Apr, 2019
本研究提出一种基于交叉模态相似性学习算法的跨媒体特征匹配方法,通过双线性约束和核范数惩罚实现低秩表示,并应用加速迭代最小化算法实现快速收敛。实验结果表明,在三个知名的图像 - 文本跨媒体检索数据库中,本方法较之现有算法具有更佳性能。
Nov, 2014
本文提出了一种基于多核学习以及基于图的过滤技术的方法,将多媒体数据中的多种模态融合到单一的相似度空间中,以解决多媒体数据中的主观问题和不一致问题。
Aug, 2010
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
该论文提出一种新的语义相似度评估指标 SemanticMap 来评估跨模态检索系统的性能,并且提出了基于单流网络的新型跨模态检索系统,该系统使用深度神经网络训练,并在 MSCOCO 和 Flickr30K 数据集上进行了评估。
Sep, 2019
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017