Jan, 2024

关于阿拉伯语语言模型预训练中数据规模的重要性

TL;DR通过在规模庞大、高质量的阿拉伯语语料库上重新训练,我们显著提高了领先的阿拉伯编码器型 BERT-based 和编码器解码器型 T5-based 的性能,表现出同类模型的最新技术结果;我们的分析强烈暗示,预训练数据远远是性能的主要贡献因素,超越其他因素。