该研究提出了通过将图像映射到类别嵌入中以学习语义鉴别性特征的方法,从而提高图像检索结果的语义一致性。结果显示在 CIFAR-100,NABirds 和 ImageNet 上,学习到的图像嵌入大大提高了图像检索结果的语义一致性。
Sep, 2018
本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。
Apr, 2018
本研究介绍了一种基于语言的图像生成方法,可以根据单词嵌入语义内容生成自然图像,并且采用两个映射函数实现,该方法在几个用户研究中证明其产生的图像可以捕捉编码在单词嵌入中的概念的一般视觉特性,例如颜色或典型环境,足以区分对象的一般类别。
Jun, 2015
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习,本论文实现了将嵌入与语义概念关联,作为视频内容解释的新方法,并在 TRECVid 基准数据集上证明了搜索结果的显著提升。
Feb, 2024
通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。
Aug, 2019
本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。
Sep, 2017
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
通过提取语料库中词汇的共现模式来实现无监督学习,学习不仅代表个体单词的表示,还明确捕捉代表单词间语义关联的词向量表示,并通过联合权重和二元分类器来描述单词间的语义关系,取得了普遍类比检测三个基准数据集中的显著性优势。
May, 2015