MMJul, 2020

斯里兰卡 Facebook 十年的僧伽罗语语料库和停用词

TL;DR本文介绍来自 LIRNEasia 的 Data, Analysis and Policy 团队的两个疯狂的僧伽罗语语料库,以及一个算法派生的停止词列表。其中较大的语料库跨越 2010 年到 2020 年,包含了斯里兰卡的 533 个 Facebook 页面发布的 28,825,820 到 29,549,672 个多语种文本,包括政治、媒体、名人和其他类别;较小的语料库仅包含从较大的语料库中提取出的 5,402,76 个僧伽罗语文本。两个语料库都有它们创作日期、来源页面和内容类型的标记。