词义感知词向量学习
我们开发了一种简单而有效的方法来学习单词意义嵌入。通过聚类相关单词的自我网络,我们的方法可以从现有的单词嵌入中引出一种意义库,并通过学习的意义向量标记上下文中的单词,从而产生了下游应用。实验表明,我们的方法的性能与最先进的无监督 WSD 系统相当。
Aug, 2017
本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳(WSI)任务。最近的工作使用了预先训练的 RNN 语言模型(ELMo)来进行聚类,并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇,并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。
May, 2019
本文提出 SememeWSD Synonym(SWSDS)模型,通过使用 OpenHowNet 中的同义词集和词义消歧(WSD)来为多义词的每个意义指定不同的向量,验证结果表明与 Gensim 的 wmdistance 方法相比,SWSDS 模型提高了语义相似性的准确性。
Jun, 2022
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对 158 种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
通过群集将一个多义词的用法分组成对应的几个义项,以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法,无需或仅需很少调整就能适应不同语言,这些方法在流行的英语 WSI 数据集上与现有的单语方法性能相当,为缺乏英语词汇资源的低资源语言提供了有用的无监督方法。
May, 2024
本文提出了一种基于分层聚类和不变信息聚类的新型无监督方法,用于解决自然语言处理中的词义识别问题,该方法可以在某些情况下优于目前提出的任何方法,并在其他情况下表现出竞争力。
Oct, 2022
本文提出一种基于预训练掩码语言模型(MLMs)的词义归纳方法,可以扩展到大词汇和大语料库,其结果是一个按语料库导出的意义清单进行感知标记的语料库,每个意义将与指示性单词相关联,通过在此感知标记语料库上训练静态单词嵌入算法,我们获得了优质的静态感知嵌入。这种数据驱动算法的本质可用于感知特定于语料库的感觉,正如我们在科学领域的案例研究中所证明的那样。
Oct, 2021
本研究提出一种新颖的在线算法,通过最小化上下文嵌入组内的距离来学习单词嵌入中每个维度的本质,以三种最先进的基于神经网络的语言模型 Flair、ELMo 和 BERT 生成上下文嵌入,为同一词汇类型生成不同的嵌入,这些嵌入由 SemCor 数据集手动标注的意义进行分组,结论表明本文提出的算法不会损伤性能,甚至能提高 3%,可以用于未来关于上下文嵌入可解释性的研究。
Nov, 2019
提出一种新模型共同学习单词和语义嵌入,以解决现有方法无法区分单词不同含义的问题,利用大规模预料库和语义网络优化嵌入空间,并在各种任务中评估了该方法的优点。
Dec, 2016
本文提出了一种基于词汇知识的语境化嵌入模型用于词义消岐,将相关语义的词义和上下文靠近,将不相关的远离,用 Attract-Repel 目标函数和自训练目标函数对嵌入进行调整,实现了在知识为基础的词义消岐方面的最新前沿成果。
Apr, 2023