Feb, 2024

质量确实重要:对网络挖掘平行语料库的质量和实用性的详细研究

TL;DR我们对两种低资源语言(英语 - 僧伽罗语、英语 - 泰米尔语和僧伽罗语 - 泰米尔语)的网络挖掘语料库的质量进行了详细分析。我们根据相似度度量对每个语料库进行了排序,并对排名的语料库的不同部分进行了内在和外在评估。我们表明,不同部分的网络挖掘语料库之间存在显著的质量差异,而且质量在不同语言和数据集之间存在变化。我们还表明,对于某些网络挖掘数据集,使用最高排名的 25k 部分训练的神经机器翻译(NMT)模型可以与人工策划的数据集媲美。