May, 2024

利用众包进行网络挖掘的日中平行语料库

TL;DR使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。