The performance of neural machine translation (NMT) depends significantly on
the size of the available parallel corpus. Due to this fact, low resource
language pairs demonstrate low translation performance compared to high
resource language pairs. The translation quality further degrad
本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架,其中包括基线 NMT 系统,检索模块和用于公共网站的对齐模块,通过迭代增加语料库来改进系统。我们的工作还评估了设计选择,例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比,本工作不仅提供了自动化框架,还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。