从周围的词汇一窥最常见的词义
提出了一种名为 Most Suitable Sense Annotation (MSSA) 的新方法,它通过一种无监督技术来标注每个单词的特定含义,并考虑其上下文的语义效应,从而减轻了自然语言理解中多义性和同音异义词的问题,实现了语义表示方面的三个主要贡献,使用六个不同的基准模型进行 word similarity 测试,结果表明该方法能够产生最先进的结果,胜过了几个更复杂的先进系统。
Jan, 2021
通过本文,我们引入了概念归纳这个非监督任务,从数据中学习一组定义概念的词语软聚类,该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳,充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类,并获得了良好的性能(BCubed F1 大于 0.60)。我们发现在我们的设置中,本地和全局层次相互有益于概念和词义的生成。最后,我们创建了表示我们引入的概念的静态嵌入,并在上下文任务中使用它们,取得了与现有技术相媲美的性能。
Jun, 2024
本文提出 SememeWSD Synonym(SWSDS)模型,通过使用 OpenHowNet 中的同义词集和词义消歧(WSD)来为多义词的每个意义指定不同的向量,验证结果表明与 Gensim 的 wmdistance 方法相比,SWSDS 模型提高了语义相似性的准确性。
Jun, 2022
本文通过在英语、荷兰语和西班牙语三种语言中,以音节长度和音素长度两种新的方式来测量单词的长度,证明了在所有语言中,单词频率与多义性和缩写的趋势存在相关性。
Mar, 2019
本研究提出一种结合内部字符信息和外部上下文信息的新型框架,用于汉语语言下的词汇语义预测任务,实验结果表明该方法可以提高语义标注的效率和一致性,对低频词仍然有较好的性能表现。
Jun, 2018
本文提出了一种基于多语言词典建立知识和监督为基础的多语言词义消歧(MWSD)系统的方法,利用统一的语义表示,将多种语言的注释进行共同训练以解决 MWSD 的注释稀缺问题,并在 SemEval-13 和 SemEval-15 数据集上展示了该方法的有效性。
Oct, 2022
通过引入一种名为系统性词义延伸的新任务(SWORME),我们发现语言模型更倾向于对词义进行渐进性的词汇语义变化,特别是逻辑转喻,但在预测高度非字面意义延伸(如隐喻)方面表现较差。我们提出了一种基于类比的词义扩展方法,并证明它在使语言模型对渐进性和根本性的词义延伸更具系统性方面发挥了有效作用。此外,我们进一步证明,学习系统性的词义延伸有助于语言模型在多个象征语言理解基准上的表现。
Nov, 2023
本文提出了一种三倍增的方法来进行无监督的多义词建模,其中使用低秩子空间来表示包含目标单词的句子,通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别,最后基于英文维基百科语料库得出了多个词和词义对的表示,这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。
Oct, 2016
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。
Jun, 2016