DarijaBanking:克服摩洛哥阿拉伯语使用者在银行交流中的语言障碍的新资源
这篇论文介绍了 ArBanking77,这是一个在银行领域用于意图检测的大型阿拉伯语数据集。我们从原始的英文 Banking77 数据集进行了阿拉伯化和本土化处理,生成了 ArBanking77 数据集,其中包含了 31,404 个现代标准阿拉伯(MSA)和巴勒斯坦方言的查询,每个查询被分类为 77 个类别(意图)。此外,我们还提出了基于 AraBERT 的神经模型,经过在 ArBanking77 上微调后,在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了大量实验证明,在低资源环境下,该模型通过在部分数据上训练,并使用噪声查询进行扩充以模拟现实中自然语言处理系统(尤其是实时聊天查询)中的口语术语、错误和拼写错误。数据集和模型均可在此链接处公开获得。
Oct, 2023
DODa 是一个旨在增强对摩洛哥方言 Darija 的自然语言处理能力的开源项目,拥有大约 100,000 个条目,是 Darija-English 翻译领域最大的协作项目,包含语义和语法分类、拼写变化、多种时态的动词变位以及成千上万个翻译的句子。该数据集反映了语言上的变体和偏好,包括使用拉丁字母和阿拉伯字母书写的条目,对于开发准确理解和生成 Darija 的应用程序至关重要,支持摩洛哥社区的语言需求,并可能扩展到邻近地区的类似方言。本文探讨了 DODa 的战略重要性、目前的成果以及未来的增强计划,旨在促进其在全球自然语言处理领域的使用和发展。
May, 2024
通过利用人工智能的力量,我们提出了一个框架,将高资源语言的内容本土化到低资源的语言 / 方言,以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时,我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力,以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。
Dec, 2023
我们提出了一个高效的建模框架,用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练,并且利用预训练在源语言上的大型语言模型(XLMRoBERTa)的知识,通过学生 - 教师关系(知识蒸馏)。学生模型在低资源目标语言上采用无监督的一致性训练(使用 KL 散度损失)。我们使用两个独立的 SMS 数据集,分别是英语和阿拉伯语,每个数据集都携带有半结构化的银行交易信息,并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本,我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明,在低资源语言的少量标记样本的情况下,学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序,尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义,有时与英语混合使用或独立使用。
Jul, 2023
本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现,以及该模型在 Nuanced Arabic Dialect Identification(NADI)共享任务的子任务 1 中获胜的过程和方法,并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件,供其他研究人员使用。
Jul, 2020
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。
Nov, 2022
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
Sep, 2023
本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示,并使用三种内在任务对这些模型进行了层和神经元分析,包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现,单词形态是在较低和中间层中学习的;方言识别需要更多的知识,因此即使在最终层中也需要保留;尽管词汇有很大的重叠,基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别,而嵌入层中的神经元是多义的,而中间层中的神经元则专门用于特定的属性。
Jan, 2022
本研究用 MARBERT 建立了一个 ensemble 模型来对短 DA 和 MSA 阿拉伯口语进行地理起源的识别,并在 4 个子任务上展现了最新的研究成果,进一步提高了之前工作 F1 评分约 7.63%。
Mar, 2021