ViCo:从视觉共现中获得词向量
本文旨在利用图像丰富文本语义模型,以更好地捕捉词汇意义的认知方面,并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好,其中与人类单词相似性的相关性也更高,并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。
Feb, 2022
本文提出了一种能够捕捉语义相似性的视觉词向量嵌入模型,将抽象场景作为视觉基础,并在三项任务中取得了超越文本词向量的表现。
Nov, 2015
本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。
Sep, 2017
通过提取语料库中词汇的共现模式来实现无监督学习,学习不仅代表个体单词的表示,还明确捕捉代表单词间语义关联的词向量表示,并通过联合权重和二元分类器来描述单词间的语义关系,取得了普遍类比检测三个基准数据集中的显著性优势。
May, 2015
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
本研究提出了一种基于视觉单词共现模型的个人再识别方法,该方法将图像像素映射到视觉单词上,并使用共现矩阵来编码探针和库图像中的视觉单词的联合分布,通过使用线性 SVM 分类器来训练这些共现描述符,以应对不同摄像头视角下的外观变化,实验表明该方法在 VIPeR 和 CUHK Campus 数据集中可以取得比最先进的结果分别高 10.44%和 22.27%的 rank-15 性能
Oct, 2014
本文研究视觉特征的表征方式,并探讨了通过将视觉识别任务和视觉问答任务各自对应的语言表示方式建立联系,以实现更好的跨任务数据迁移的方法。结果表明,这种方法比常规的多任务学习方法更有效,并且能够大幅提高在视觉识别任务和视觉问答任务上的准确率。
Apr, 2017
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态 skip-gram 模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017