Over the past years, distributed semantic representations have proved to be
effective and flexible keepers of prior knowledge to be integrated into
downstream applications. This survey focuses on the representation of meaning.
We start from the theoretical background behind word vector
本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。