从词到义项嵌入:对意义向量表示的调查
该论文总结并分类了向量空间模型在语义文本处理中的应用,分为三类主要矩阵结构:项-文档、词-上下文和对模式矩阵,主要介绍了这三个类别中的广泛应用及其在开源项目中的详细研究,并旨在为熟悉或不熟悉该领域的人提供一些新的研究视角。
Mar, 2010
本文检验了分布式词汇表示法是否能准确编码概念含义的所有必要方面,发现其无法准确编码概念的感知特征,导致词-词相似度预测误差。因此,文中提出需要注重基于经验和实体的语言学习方法来弥补这些缺陷。
May, 2017
本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。
Jun, 2019
利用语境嵌入表示的词义表征,基于WordNet全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。
Jun, 2019
本文对BERT模型在词汇歧义方面的能力及其潜在局限性进行了深入的定量和定性分析。作者发现,BERT可以准确地捕捉高级别的意义区别,但对于具有限定条件的名词消歧问题,处理仍存在很多挑战。作者还在两种主要的基于语言模型的WSD策略(即微调和特征提取)之间进行了深入比较,并发现后一种方法更为稳健。
Aug, 2020
提出了一种名为Most Suitable Sense Annotation (MSSA)的新方法,它通过一种无监督技术来标注每个单词的特定含义,并考虑其上下文的语义效应,从而减轻了自然语言理解中多义性和同音异义词的问题,实现了语义表示方面的三个主要贡献,使用六个不同的基准模型进行word similarity测试,结果表明该方法能够产生最先进的结果,胜过了几个更复杂的先进系统。
Jan, 2021
该研究介绍了如何使用神经语言模型,通过从所有层收集信息生成感知嵌入,并展示了这些嵌入的多种领域应用,特别是在词义消歧任务中,提出的方法通过对14个神经语言模型变体的分析,在准确性和任务多样性方面实现了改进。
May, 2021
揭示了上下文化单词嵌入的一些特征,包括上下文中单词意思的变化程度,单词在不同上下文中的一致性,以及单词位置偏差的影响,并提出一种减轻这种偏差的简单方法。
Aug, 2022