本篇研究通过使用大规模手动 Wikipedia 注释和词义,建立了一个新的数据集,其中将来自不同单词的词意通过语义类别相互关联。在此基础上,提出了一种新型的嵌入内容诊断测试方法,并通过将嵌入分类为语义类别进行嵌入空间分析。主要结论是:(i) 单向量嵌入通常很好地表现出词义的信息,但多义词的罕见含义对单向量嵌入的负面影响很小,对依赖于常见含义的自然语言处理应用的性能没有影响。
Jun, 2019
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本研究使用神经网络模型处理语言,探讨了 LSTM 语言模型如何处理英语中的词汇歧义,通过探究其隐藏的表示方式发现大量的词汇信息与上下文信息被表述,但上下文信息有待提高。
本文研究了词嵌入在查询扩展中的应用,结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务,建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。
May, 2016
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对 158 种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与英语不同,我们发现在西班牙语中,模型规模与性能之间没有相关性。此外,我们还发现了目标名词消歧的陈规轨迹,并在英语中部分复制了这一结果。我们贡献了(1)一组包含人类相关性判断的西班牙语句子刺激数据集,以及(2)认识到语言模型规格(结构,训练方案)对语境化嵌入的影响。
Jun, 2024
本篇论文提出了一种新的方法,基于监督式消歧,为每个单词建立多个嵌入向量,从而针对字面意思和文本语境对不同主题进行消歧,以及在神经依赖分析上具有更好的错误率表现。
Nov, 2015
该论文介绍了一种基于词嵌入的 query expansion 方法,使用人工神经网络分类器来预测 query expansion 词汇的有用性,实验结果表明该方法显著提高了检索性能。
Nov, 2018
通过利用大型语言模型,我们研究了在机器翻译中解决语义歧义的能力,并提出了两种改进方法,通过上下文学习和在精心策划的歧义数据集上的微调,我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统,为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。
Sep, 2023
利用语境嵌入表示的词义表征,基于 WordNet 全覆盖创造了意义级别嵌入,并不依赖于显式知识或任务特定建模,从而实现了前所未有的词语消歧性能提升。