Previous models for learning the semantic vectors of items and their groups,
such as words, sentences, nodes, and graphs, using distributed representation
have been based on the assumption that an item correspond
本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。