Nov, 2022
面向阿拉伯方言变异鲁棒性的参数和数据高效连续预训练
Parameter and Data Efficient Continual Pre-training for Robustness to Dialectal Variance in Arabic
Soumajyoti Sarkar, Kaixiang Lin, Sailik Sengupta, Leonard Lausen, Sheng Zha...
TL;DR在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。