EMNLPSep, 2020

不再是低资源:对齐器集成、批处理过滤和新的孟加拉 - 英语机器翻译数据集

TL;DR本研究利用自定义句子分段器和两种新方法,构建一个高质量的孟加拉语 - 英语双语平行语料库,从而提高孟加拉语机器翻译的 BLEU 指标,并评估了一个包含 1000 个双语句对的测试集,释放了分段器,平行语料库和评估集,为孟加拉语以及其他低资源语言的机器翻译研究铺平了道路。