May, 2024

塞尔维亚语言建模的新文本语料库

TL;DR该文章介绍了用于大型语言模型训练的塞尔维亚语(和塞尔维亚 - 克罗地亚语)的文本语料库,并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类,并详细说明其特点。此外,文章还介绍了三个新的语料库:一个新的塞尔维亚 - 克罗地亚语综合网络语料库,一个基于塞尔维亚所有大学国家博士论文库中的博士学位论文的高质量语料库,以及同一来源的摘要翻译平行语料库。将通过基于频率的文体测量方法评估新旧语料库的独特性,并对结果进行简要讨论。