Jan, 2020

PMIndia -- 印度语言平行语料库集合

TL;DR本研究提供了一个新的公开平行语料库(PMIndia),其中包含 13 种主要印度语言和英语的成对平行句子,每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述,同时还介绍了该语料库在 NMT 方面的一些初步结果。