为丰富阿拉伯同义词而设计的基准测试和评分算法

Feb, 2023

为丰富阿拉伯同义词而设计的基准测试和评分算法

A Benchmark and Scoring Algorithm for Enriching Arabic Synonyms

Sana Ghanem, Mustafa Jarrar, Radi Jarrar, Ibrahim Bounhas

TL;DR本文提出了一种算法和数据集，用于从给定的单 / 多语言词汇表中提取模糊值超过特定阈值的新近义词，其中数据集由 3K 候选同义词和 500 个同义词组成。根据我们的评估，该算法表现得像语言学家，并且其模糊值与语言学家的提议值接近。

Abstract

This paper addresses the task of extending a given synset with additional synonyms taking into account synonymy strength as a fuzzy value. Given a mono/multilingual synset and a threshold (a →

synonyms fuzzy value lexicons dataset algorithm

发现论文，激发创造

Watset: 从同义词图中自动归纳同义词集

本研究提出了一种基于图的方法，利用同义词词典和词嵌入诱导同义词集。首先，我们建立了一个从常见资源（例如 Wiktionary）中提取同义词的加权图。其次，我们应用词义归纳来处理有歧义的单词。最后，我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单，但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准数据集上，在 F-score 方面表现出优秀的结果，超越了五种有竞争力的最新方法。

Apr, 2017

同义词提取的当前趋势和方法：适用于阿拉伯语的潜在调适

本文介绍了四种通过使用翻译图形、词网、同义词构造、深度学习等方式，自动提取同义词的方法。此外，作者还对这些方法进行了比较和分析，并探讨了未来在阿拉伯语环境下进行同义词自动生成的潜在适配性。

May, 2022

推进阿拉伯语词网：提升内容质量

高质量的词网（WordNets）对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句，以及语言形态和语义的不完善等问题，我们对阿拉伯语 WordNet 进行了重大修订，更新了超过 58% 的同义词集。通过添加缺失的信息和纠正错误，同时还扩展了词网结构，引入了新的元素：短语和词汇空缺，以应对语言多样性和不可翻译性的问题。

Mar, 2024

自动构建 Wordnet 同义词集

通过使用公开的 Wordnets、机器翻译和单语种双语字典，我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集，这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言，是自动构建完整 Wordnets 的第一步。

Aug, 2022

词汇语义增强的神经词向量

通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果，并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。

Oct, 2022

词汇资源中词义和定义的单语对齐

本论文探讨词汇数据的对齐问题，在单语词典中寻找最佳对齐的方法。通过人工注释的基准评估不同技术的对齐效果，并在此基础上扩展到翻译推断。该研究可在工具实现中应用。

Sep, 2022

利用多段双向上下文匹配进行实体同义词发现

该论文提出了一种多环境下的同义词发现框架，使用分布式假设和神经网络模型 SYNONYMNET，从自由文本语料库中检测出实体的同义词，以提高实体消歧或知识图谱规范化等任务的效果和稳健性。

Dec, 2018

整合主观性的计算方法在同根词别选中的应用

处理同源数据涉及处理同义词，即在一种语言中描述相同概念的多个词。本文展示了利用二元特征矩阵可以表示包括所有同义词的整个数据集，使用 RAxML-NG 工具进行最大似然树推断可得到合理的树。建议不要事先选择同义词，而是包含所有同义词以表示同源数据。文章还介绍了概率二元和概率多值特征矩阵，并证明了使用哪种特征矩阵类型推断的 RAxML-NG 树与黄金标准拓扑上最接近是依赖于数据集。还提供了一个用于根据 CLDF 格式生成上述所有特征矩阵类型的 Python 接口。

Apr, 2024

使用词向量进行半自动 WordNet 关联

本文提出一种将不同语言的词汇网络进行链接的方法，可用于自然语言处理等知识性应用，能够在目标语言的候选词汇同义词集排名的前十位中为 60％的所有同义词集和 70％的名词同义词集检索出获胜的同义词集。

Jan, 2022

将分布式词汇对比集成到词向量中用于反义词 - 同义词区分

该论文提出了一种新的向量表示方法，将词汇对比整合到分布式向量中，并加强了确定词语相似度度量的最显著特征。改进后的向量模型明显优于标准模型，并且可以跨词类（形容词，名词，动词）将反义词从同义词中区分开来。此外，该论文还将词汇对比向量整合到跳字模型的目标函数中，改进后的嵌入能够超越现有最先进的模型，在预测 SimLex-999 中的词语相似度和区分反义词和同义词方面表现优异。

May, 2016