诺米嵌入视觉:扩展潜在空间
本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。
Apr, 2018
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
本文讨论了在自然图像和描述这些图像内容的语音波形中学习神经网络嵌入的方法。我们展示了这些技术可成功应用于英语和印地语等多种语言,通过在两种语言上同时进行训练,可以提高模型的性能,并且这些模型可以执行语义跨语言语音检索。
Apr, 2018
通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。
Aug, 2019
本研究提出了一种名为 SuperCaptioning 的方法,通过借鉴 Super Characters 方法中的二维词嵌入思想,在一个单一的 CNN 模型中同时处理语言和视觉信息,从而将图像字幕生成问题转化为图像分类问题,实验证明此方法可以在 Flickr30k 数据上生成高质量的图像字幕,并提供互动演示。
May, 2019
提出使用双分支神经网络进行联合嵌入图像和文本的方法,包含多层线性投影和非线性激活函数,通过结合度量学习和交叉视图约束优化进行训练,实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。
Nov, 2015
通过简单的转换,我们的研究展示了神经网络模型中学习到的表示可以在不同的预训练网络之间进行转化,从而有效地连接编码器和解码器,并实现在多模态设置下的出色分类性能。
Nov, 2023
本文提出了一种模型,其将图像和相关的口头描述作为输入,并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号,并采用嵌入和对准模型将两个网络联系在一起,以学习跨两种模态的联合语义空间,最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。
Nov, 2015
本文提出一种使用卷积神经网络和加权排名损失函数的方法,从单词图像中直接预测语义概念,实现文本识别和检索中的语义关联,实验证明该方法的正确性和高度准确性。
Sep, 2015