Feb, 2021

基于阿拉伯语推文的预训练BERT:实践考虑

TL;DR本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对BERT进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的QARiB模型在一些下游任务中取得了最新的最佳结果。