该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记,优于现有系统,在不同区域的阿拉伯语可获得显著改进,特别是在资源匮乏的情况下,利用其他高资源方言的数据进行微调,以及使用高质量的形态分析器作为外部语言资源是有益的。
Oct, 2021
在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用mBERT预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。
Nov, 2022
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像Google翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
Sep, 2023
此篇研究论文介绍了在阿拉伯语中的方言识别问题,并提出了一种新的方法——阿拉伯语方言水平(ALDi),这是一个连续的语言变量。研究使用AOC-ALDi数据集进行分析,并通过案例研究展示了ALDi在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。
Oct, 2023
对于阿拉伯语的语法错误纠正任务,研究发现使用各种提示方法和少量样本学习的指令微调大型语言模型具有显著的效果,但是无论规模大小,指令微调模型的性能仍然不及完全微调的模型,此差距指出了语言模型改进的空间。同时,借鉴低资源机器翻译方法,利用合成数据也能显著提升阿拉伯语语法错误纠正的性能, 在两个标准阿拉伯语数据集上创造了新的最佳结果,分别达到73.29和73.26的F1分数,相比于同行评审发表的基准模型。
Dec, 2023
评估语言模型、阿拉伯语多任务语言理解基准、模型性能
Feb, 2024
利用零样本学习对四种主要的神经网络模型在14个乌尔都自然语言处理任务上进行了全面对比和分析,结果表明最先进的模型在所有任务中都超越了编码器-解码器的预训练语言模型。此外,研究还发现,基于较少参数但更多语言特定数据的模型比基于更大计算模型但较少语言数据的模型表现更好。
May, 2024
阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战,提出了CODAfication任务的解决方案,并通过使用方言识别信息来改善性能,在多个阿拉伯方言上进行了测试和预训练模型的评估。
Jul, 2024
预训练语言模型(PLMs)在现代自然语言处理(NLP)系统中起着重要作用。本文构建了一个包含从社交媒体平台收集的340万句的阿拉伯方言语料库,利用该语料库扩展词汇并从头开始重新训练了基于BERT的模型,命名为AlcLaM。尽管训练数据较少,AlcLaM在多个阿拉伯NLP任务中展现出优越性能。