去除歧义的语义表示
通过提取语料库中词汇的共现模式来实现无监督学习,学习不仅代表个体单词的表示,还明确捕捉代表单词间语义关联的词向量表示,并通过联合权重和二元分类器来描述单词间的语义关系,取得了普遍类比检测三个基准数据集中的显著性优势。
May, 2015
本篇论文提出了一种新的方法,基于监督式消歧,为每个单词建立多个嵌入向量,从而针对字面意思和文本语境对不同主题进行消歧,以及在神经依赖分析上具有更好的错误率表现。
Nov, 2015
本文检验了分布式词汇表示法是否能准确编码概念含义的所有必要方面,发现其无法准确编码概念的感知特征,导致词-词相似度预测误差。因此,文中提出需要注重基于经验和实体的语言学习方法来弥补这些缺陷。
May, 2017
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
此研究综述了分布式语义表示的理论背景,介绍了从单词级别向更精细的词义级别转化的方法,并提供了对两种主要分支进行的广泛技术概述;最终,对其重要方面进行了分析与评估。
May, 2018
本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。
Jun, 2019
利用语境嵌入表示的词义表征,基于WordNet全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
提出了一种名为Most Suitable Sense Annotation (MSSA)的新方法,它通过一种无监督技术来标注每个单词的特定含义,并考虑其上下文的语义效应,从而减轻了自然语言理解中多义性和同音异义词的问题,实现了语义表示方面的三个主要贡献,使用六个不同的基准模型进行word similarity测试,结果表明该方法能够产生最先进的结果,胜过了几个更复杂的先进系统。
Jan, 2021
研究了上下文单词表示模型的词义消歧能力,发现多数深度预训练语言模型的上下文单词表示在几何结构上高度异性化,并存在表示退化问题,提出了一种低异性度词义修正方法(LASeR),以解决上下文单词表示的表示退化问题。
Apr, 2021
该研究介绍了如何使用神经语言模型,通过从所有层收集信息生成感知嵌入,并展示了这些嵌入的多种领域应用,特别是在词义消歧任务中,提出的方法通过对14个神经语言模型变体的分析,在准确性和任务多样性方面实现了改进。
May, 2021