ACLMar, 2016

基于多模态嵌入的动词无监督视觉语义消歧

TL;DR本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集,并提供了下载链接。