该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017
本文研究了两种神经网络结构用于学习图像和语言之间的相似性,其中一种网络结构学习了一个共享的潜在嵌入空间,另一种网络结构通过元素乘积将两个数据模态融合,并且实现了对于句子和图像的双向检索,取得了良好的结果。
Apr, 2017
文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。
Aug, 2018
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本文提出了一种基于图像的短语 grounding 方法,基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间,我们提出了一个概念权重分支,可以自动将短语分配到嵌入,而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求,并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性,从而获得了强大的区域 - 短语嵌入基线 4%,3%和 4% 的性能改进。
本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。
Apr, 2018
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。
May, 2017
本文提出了一种深度神经结构,以有效地融合结构和文本的信息,并利用新的目标函数、互补信息融合方法和互动门机制来提高文本要素特征。实验证明,所提出的模型在所有三个数据集上均优于比较方法。
Aug, 2019