Feb, 2023

为丰富阿拉伯同义词而设计的基准测试和评分算法

TL;DR本文提出了一种算法和数据集,用于从给定的单 / 多语言词汇表中提取模糊值超过特定阈值的新近义词,其中数据集由 3K 候选同义词和 500 个同义词组成。根据我们的评估,该算法表现得像语言学家,并且其模糊值与语言学家的提议值接近。