Jan, 2022

基于隐式众包数据采集的波斯语释义数据集

TL;DR本文介绍了 PerPaDa,这是一个从用户输入中收集的波斯语近义词语料库,旨在帮助检测抄袭。该语料库包含 2446 个波斯语句子的大量近义词和原句,使用了一些启发式方法来排除不符合标准的句子,相对于类似数据集,该数据集更大且更无偏见。