为丰富阿拉伯同义词而设计的基准测试和评分算法
本研究提出了一种基于图的方法,利用同义词词典和词嵌入诱导同义词集。首先,我们建立了一个从常见资源(例如 Wiktionary)中提取同义词的加权图。其次,我们应用词义归纳来处理有歧义的单词。最后,我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单,但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准 数据集上,在 F-score 方面表现出优秀的结果,超越了五种有竞争力的最新方法。
Apr, 2017
本文介绍了四种通过使用翻译图形、词网、同义词构造、深度学习等方式,自动提取同义词的方法。此外,作者还对这些方法进行了比较和分析,并探讨了未来在阿拉伯语环境下进行同义词自动生成的潜在适配性。
May, 2022
高质量的词网(WordNets)对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句,以及语言形态和语义的不完善等问题,我们对阿拉伯语 WordNet 进行了重大修订,更新了超过 58% 的同义词集。通过添加缺失的信息和纠正错误,同时还扩展了词网结构,引入了新的元素:短语和词汇空缺,以应对语言多样性和不可翻译性的问题。
Mar, 2024
通过使用公开的 Wordnets、机器翻译和单语种双语字典,我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集,这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言,是自动构建完整 Wordnets 的第一步。
Aug, 2022
本论文探讨词汇数据的对齐问题,在单语词典中寻找最佳对齐的方法。通过人工注释的基准评估不同技术的对齐效果,并在此基础上扩展到翻译推断。该研究可在工具实现中应用。
Sep, 2022
该论文提出了一种多环境下的同义词发现框架,使用分布式假设和神经网络模型 SYNONYMNET,从自由文本语料库中检测出实体的同义词,以提高实体消歧或知识图谱规范化等任务的效果和稳健性。
Dec, 2018
处理同源数据涉及处理同义词,即在一种语言中描述相同概念的多个词。本文展示了利用二元特征矩阵可以表示包括所有同义词的整个数据集,使用 RAxML-NG 工具进行最大似然树推断可得到合理的树。建议不要事先选择同义词,而是包含所有同义词以表示同源数据。文章还介绍了概率二元和概率多值特征矩阵,并证明了使用哪种特征矩阵类型推断的 RAxML-NG 树与黄金标准拓扑上最接近是依赖于数据集。还提供了一个用于根据 CLDF 格式生成上述所有特征矩阵类型的 Python 接口。
Apr, 2024
本文提出一种将不同语言的词汇网络进行链接的方法,可用于自然语言处理等知识性应用,能够在目标语言的候选词汇同义词集排名的前十位中为 60%的所有同义词集和 70%的名词同义词集检索出获胜的同义词集。
Jan, 2022
该论文提出了一种新的向量表示方法,将词汇对比整合到分布式向量中,并加强了确定词语相似度度量的最显著特征。改进后的向量模型明显优于标准模型,并且可以跨词类(形容词,名词,动词)将反义词从同义词中区分开来。此外,该论文还将词汇对比向量整合到跳字模型的目标函数中,改进后的嵌入能够超越现有最先进的模型,在预测 SimLex-999 中的词语相似度和区分反义词和同义词方面表现优异。
May, 2016