通过连接图像内容和歌词检索歌曲
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。
Sep, 2019
本文借鉴视觉传达研究,探究了多模式信息检索的有用语义图像 - 文本关系,在自动收集和扩充数据资源的基础上,采用深度学习系统和三种度量标准(跨模态互信息、语义相关性和图像与文本的状态关系)对八种语义图像 - 文本类别进行了预测,并在一个严格的测试集上展示了该方法的可行性。
Jun, 2019
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
本研究论文提出了基于神经符号方法,利用场景图像来进行文本图像检索的解决方案,并训练了一种可学习的图匹配算法来实现检索任务,并实现了一个基于交互式问答的迭代检索框架。
Nov, 2019
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
Apr, 2023
本文通过使用图神经网络测量场景图的相似度,提出了一种基于场景图相似度的图像检索方法,并使用人工注释的标题计算图片相关性测量来训练图神经网络,收集了一个数据集用于评估检索算法,并显示我们的方法比竞争方法更符合人类对图像相似性的感知。
Dec, 2020
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
该研究提出了一种基于学习语义概念并按照正确语义顺序组织它们来提高图像表示的语义增强图像和句子匹配模型,利用多区域多标签 CNN 预测图像语义概念并使用上下文门控句子生成方案进行语义顺序学习,与传统 LSTM 结合执行图像和句子匹配和生成。这项工作在两个公共基准数据集上实现了最先进的结果。
Dec, 2017