EMNLPSep, 2020

iNLTK:印度语自然语言工具包

TL;DR介绍 iNLTK—— 这是一种开放源代码的 NLP 库,由 13 种印度语言中已经预训练好的语言模型,并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类,我们表现优于以前的结果,并且通过在 iNLTK 中使用预训练模型和数据增强,我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用,并在 GitHub 上有 40000 + 下载,600 + 星号和 100 + 叉子。