Jul, 2019

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

TL;DR使用多语句子嵌入的方法自动从85种语言的维基百科文章中提取平行句子,共提取了1.35亿个平行句子,并且在1886种语言对上训练神经机器翻译基线系统,取得了较高的BLEU分数。WikiMatrix bitexts可以对离散的语言进行机器翻译训练,而不需要通过英语来进行桥接。