Jul, 2019

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

TL;DR使用多语句子嵌入的方法自动从 85 种语言的维基百科文章中提取平行句子,共提取了 1.35 亿个平行句子,并且在 1886 种语言对上训练神经机器翻译基线系统,取得了较高的 BLEU 分数。WikiMatrix bitexts 可以对离散的语言进行机器翻译训练,而不需要通过英语来进行桥接。