利用句子嵌入进行词义归纳自动构建 WordNet
通过使用公开的 Wordnets、机器翻译和单语种双语字典,我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集,这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言,是自动构建完整 Wordnets 的第一步。
Aug, 2022
本文提出一种将不同语言的词汇网络进行链接的方法,可用于自然语言处理等知识性应用,能够在目标语言的候选词汇同义词集排名的前十位中为 60%的所有同义词集和 70%的名词同义词集检索出获胜的同义词集。
Jan, 2022
本文提出一种基于预训练掩码语言模型(MLMs)的词义归纳方法,可以扩展到大词汇和大语料库,其结果是一个按语料库导出的意义清单进行感知标记的语料库,每个意义将与指示性单词相关联,通过在此感知标记语料库上训练静态单词嵌入算法,我们获得了优质的静态感知嵌入。这种数据驱动算法的本质可用于感知特定于语料库的感觉,正如我们在科学领域的案例研究中所证明的那样。
Oct, 2021
本研究提出了一种基于图的方法,利用同义词词典和词嵌入诱导同义词集。首先,我们建立了一个从常见资源(例如 Wiktionary)中提取同义词的加权图。其次,我们应用词义归纳来处理有歧义的单词。最后,我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单,但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准 数据集上,在 F-score 方面表现出优秀的结果,超越了五种有竞争力的最新方法。
Apr, 2017
本研究提出了一种基于预训练的词嵌入,利用完全无监督和无基于知识的方法诱导一个完整的词义库,并实现对 158 种语言中的单词进行上下文消歧,对于资源匮乏的语言特别有用。
Mar, 2020
本文介绍了一种通过识别句中单词使用的不同含义进行分组的无监督词义归纳(WSI)任务。最近的工作使用了预先训练的 RNN 语言模型(ELMo)来进行聚类,并且将该方法适用于 BERT 进一步提高了得分。本文通过提出一种解释聚类结果的方法来扩展先前的方法支持动态而非固定数量的簇,并执行了广泛的错误分析来揭示 WSI 任务中剩余错误的来源。
May, 2019
本文提出一种基于 sense embeddings 方法的词义感知 (word sense induction) 算法,通过 Sense 聚类和 Contextual 向量来辨别多义词的词义,相对于传统基于分布式模型的方法,我们的算法可以更好地处理语义相似性,通过对 SemEval-2010 数据进行的实验表明,本算法的效果优于所有参赛者及最近的大部分最新方法。
Jun, 2016
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
介绍了我们开发的 “Parupalli Padajaalam” 工具的界面,并详细解释了注释过程。我们的目标是为 OntoSenseNet 资源提供情感极性注释,并分析 OntoSenseNet Sense 注释对情感分析任务的重要性。我们说明来自 OntoSenseNet(Telugu)的特征,并计算和解释 OntoSenseNet 中动词的副词类分布。此任务已知有助于消除单词意义的歧义,有助于提高单词意义消歧(WSD)任务的性能。
Jul, 2018