COLINGDec, 2016
Shamela:一个大规模历史阿拉伯语语料库
Shamela: A Large-Scale Historical Arabic Corpus
Yonatan Belinkov, Alexander Magidow, Maxim Romanov, Avi Shmidman, Moshe Koppel
TL;DR本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。