Apr, 2020

AI4Bharat-IndicNLP 语料库:印度语系单语语料库与词嵌入

TL;DR介绍 IndicNLP 语料库,包含来自两种语言家族的 10 种印度语言的 27 亿词,分享了基于这些语料库训练的预训练词向量,证明其在多个评估任务中的显著优异表现,希望该语料库的开放能够加速 Indic 自然语言处理领域的研究。