Sep, 2019

开发少资源语言的细粒度语料库:以库尔德语为例

TL;DR本文介绍了 Kurdisk Textbooks Corpus (KTC),这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库,它经过规范化并按照 12 个教育科目进行分类,包含了 693,800 个单词(110,297 个类型)。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。