ACLApr, 2021

Samanantar: 11 种印度语言最大的公开并行语料库收集

TL;DR介绍了 Samanantar,这是最大的公共平行语料库集合,包括英语和 11 种印度语言之间的 49.7 百万句子对,同时提取自公共平行语料库和网络,并在 Samanantar 上训练多语种 NMT 模型,从而在公开可用的基准测试上优于现有模型和基准线,希望能够推进印度语言的 NMT 和多语种 NLP 研究。