多模式图像检索的概率组合嵌入
本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法,该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在 CUB 数据集上测试,证明了该方法不仅能提高检索性能,而且可以提供可解释性和不确定性的嵌入表示。
Jan, 2021
本文研究了在跨模态(即文本和图像)环境下使用概率嵌入的优势,并提出了一种简单的方法,将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验,证明在跨模态检索中,概率表示法具有一致的优势,并验证了其捕捉不确定性的能力。
Apr, 2022
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015
该研究提出了一个两阶段模型:第一阶段使用常规向量距离度量,快速对候选项进行修剪;第二阶段采用双编码器体系结构,对参考文本 - 候选项 - 文本进行有效注视和重新排序,利用视觉和语言预训练网络,实现了组合先前方法的优点。
May, 2023
本文提出了一种基于图像和文本相结合的检索方法,利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述,并在三种不同数据集上进行了验证,证明了该方法在输入查询分类和图像检索方面的有效性。
Dec, 2018
该研究提出了一种使用多种神经编码器的多模态知识库嵌入方法,将它们与现有关系模型相结合,学习实体和多模态数据的嵌入,进而提出了一种新的多模态插值模型,用于从知识库中的信息生成丢失的多模态值,并通过用户研究评估了其生成的多模态值的质量。
Sep, 2018
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文提出了一种基于多模态对比目标的句子嵌入学习方法,利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能,并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。
Apr, 2022