COLINGDec, 2016

Shamela:一个大规模历史阿拉伯语语料库

TL;DR本文介绍一种收集和处理阿拉伯语历史语料库的方法,所得到的大规模语料库包括约 10 亿个单词,使用形态分析器进行处理,并检测出了平行段落并自动标注了年代。该语料库可用于数字人文学研究的实际应用。