ACLMar, 2016
基于多模态嵌入的动词无监督视觉语义消歧
Unsupervised Visual Sense Disambiguation for Verbs using Multimodal Embeddings
Spandana Gella, Mirella Lapata, Frank Keller
TL;DR本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集,并提供了下载链接。