Feb, 2024

FaBERT:波斯语博客上的 BERT 预训练

TL;DRFaBERT 是一种基于波斯语的 BERT 基础模型,在 HmBlogs 语料库上进行了预训练,涵盖了波斯语的非正式和正式文本。在 12 个数据集上的综合评估中,FaBERT 在各种下游任务中持续展现出改进的性能,包括情感分析、命名实体识别、自然语言推理、问答和问题改写,且模型体积较小。研究结果凸显了利用多样化和清理过的语料库(如 HmBlogs)来提升波斯语自然语言处理应用中 BERT 等语言模型性能的重要性。可通过此网址免费访问 FaBERT。