BriefGPT.xyz
Feb, 2021
基于阿拉伯语推文的预训练BERT:实践考虑
Pre-Training BERT on Arabic Tweets: Practical Considerations
HTML
PDF
Ahmed Abdelali, Sabit Hassan, Hamdy Mubarak, Kareem Darwish, Younes Samih
TL;DR
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对BERT进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的QARiB模型在一些下游任务中取得了最新的最佳结果。
Abstract
pretraining
bidirectional encoder representations
from
transformers
(BERT) for downstream NLP tasks is a non-trival task. We pretrained 5
→