基于阿拉伯语推文的预训练BERT：实践考虑

Feb, 2021

Pre-Training BERT on Arabic Tweets: Practical Considerations

Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish, Younes Samih

TL;DR本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对BERT进行预训练，旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用，也证明了更多的数据或更多的训练步骤并不能保证更好的模型，最终得到的QARiB模型在一些下游任务中取得了最新的最佳结果。

Abstract

pretraining bidirectional encoder representations from transformers (BERT) for downstream NLP tasks is a non-trival task. We pretrained 5