Sep, 2019
开发少资源语言的细粒度语料库:以库尔德语为例
Developing a Fine-Grained Corpus for a Less-resourced Language: the case of Kurdish
Roshna Omer Abdulrahman, Hossein Hassani, Sina Ahmadi
TL;DR本文介绍了 Kurdisk Textbooks Corpus (KTC),这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库,它经过规范化并按照 12 个教育科目进行分类,包含了 693,800 个单词(110,297 个类型)。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。