Jul, 2024

AlcLaM:阿拉伯方言语言模型

TL;DR预训练语言模型(PLMs)在现代自然语言处理(NLP)系统中起着重要作用。本文构建了一个包含从社交媒体平台收集的340万句的阿拉伯方言语料库,利用该语料库扩展词汇并从头开始重新训练了基于BERT的模型,命名为AlcLaM。尽管训练数据较少,AlcLaM在多个阿拉伯NLP任务中展现出优越性能。