Oct, 2023

PuoBERTa:Setswana 语言模型的训练与评估

TL;DR本文介绍了针对塞茨瓦纳语定制的屏蔽语言模型 PuoBERTa,通过收集、整理和准备各种单语文本构建了高质量的语料库用于 PuoBERTa 的训练,评估了其在多个 NLP 任务中的效果,包括词性标注、命名实体识别和新闻分类,并引入了一个新的塞茨瓦纳语新闻分类数据集,初步展示了 PuoBERTa 的性能,为进一步的研究方向铺平了道路,证明了 PuoBERTa 在塞茨瓦纳语等少研究语言的 NLP 能力。