为国家级方言识别创建的多方言阿拉伯 BERT
该研究提出了对 “Nuanced Arabic Dialect Identification (NADI) Shared Task 2023” 的方法,着重介绍了处理与国家级方言识别相关的子任务 1 的方法。该研究利用使用涵盖 18 种方言的 Twitter 数据集(TWT-2023)进行多类别分类问题的研究,采用基于 transformer 的预训练模型进行国家级方言识别,并利用集成方法提高了系统的性能,在测试数据集中取得了 76.65 的 F1 得分(排名第 11 位)。
Nov, 2023
本研究用 MARBERT 建立了一个 ensemble 模型来对短 DA 和 MSA 阿拉伯口语进行地理起源的识别,并在 4 个子任务上展现了最新的研究成果,进一步提高了之前工作 F1 评分约 7.63%。
Mar, 2021
用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集,并使用多个筛选器识别用户并准确识别方言,这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。
May, 2020
本文介绍首个 Nuanced Arabic Dialect Identification Shared Task (NADI),包含两个子任务,即 Subtask 1 和 Subtask 2。共有 61 个团队参与,其中 Subtask 1 有 18 个团队的 47 个提交,Subtask 2 有 9 个团队的 9 个提交。该活动旨在以子国家水平针对自然出现的细粒度方言文本进行目标识别,数据源自于 Twitter 领域。
Oct, 2020
介绍了 NADI 2021 第二次 Nuanced 阿拉伯方言识别共享任务的研究结果,该任务包括四个子任务:国家级 Modern Standard Arabic (MSA) 识别、国家级方言识别、省份级 MSA 识别和省份级子方言识别,并介绍了数据集和参与者情况。
Mar, 2021
第四届 Nuanced Arabic Dialect Identification 共享任务(NADI 2023)的研究结果是:通过提供新颖的数据集和定义有意义的子任务,NADI 旨在推动最先进的阿拉伯语自然语言处理研究,并在标准化条件下促进团队合作和比较不同方法。该研究目标包括方言识别和方言到 MSA 机器翻译,参与的团队中获胜者在这些子任务中表现出色。结果表明这些子任务仍然具有挑战性,有助于推动未来相关工作的进行。
Oct, 2023
本论文介绍了第三届 Nuanced Arabic Dialect Identification Shared Task(NADI 2022)的结果,该任务旨在推动阿拉伯语自然语言处理等领域的发展,其中涉及到阿拉伯方言的识别和情感分析,通过标准化语境提供多样化的数据集和建模机会,共有 41 个团队注册本次任务,实际参与的有 21 个团队(105 个有效提交),其中 19 个团队参与 Subtask 1,10 个团队参与 Subtask 2。最终,获胜的团队在 Subtask 1 上取得了 27.06 的 F1 得分,在 Subtask 2 上的 F1 得分为 75.16,反映出这两个子任务仍然具有挑战性,需要进行更多未来的工作。
Oct, 2022
该研究针对阿拉伯方言识别的国家级方言识别这一子任务,对表面预处理、形态预处理、FastText 向量模型和 TF-IDF 特征的加权拼接等多个关键因素进行深入分析,使用线性支持向量分类(LSVC)模型进行分类,并取得了显著成果,F1 得分为 62.51%,接近于该子任务所提交其他系统的平均 F1 得分 72.91%。
Dec, 2023
本文介绍了 SaudiBERT,这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较,分为情感分析和文本分类两组,SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分,显著优于其他比较模型。此外,我们还介绍了两个新的沙特方言语料库:沙特推特巨型语料库(STMC),其中包含超过 1.41 亿条沙特方言推文,以及沙特论坛语料库(SFC),其中包含从五个沙特在线论坛收集的 15.2 GB 文本。这两个语料库被用于预训练所提出的模型,它们是文献中报道的最大的沙特方言语料库。结果确认了 SaudiBERT 在理解和分析使用沙特方言表达的阿拉伯文本方面的有效性,在大多数任务中实现了最先进的结果,并超越了研究中包含的其他语言模型。SaudiBERT 模型可以在 https://huggingface.co/faisalq/SaudiBERT 公开获取。
May, 2024
本篇论文描述了一个用于阿拉伯语的口语方言识别 (ADI) 模型,该模型在两个基准数据集 ADI-5 和 ADI-17 上始终表现优于先前发表的结果。我们探索了两种不同的架构变体:ResNet 和 ECAPA-TDNN,以及两种类型的声学特征:MFCC 和从预训练的自监督模型 UniSpeech-SAT Large 提取的特征,以及所有四个变体的融合。我们发现,ECAPA-TDNN 网络表现优于 ResNet,而具有 UniSpeech-SAT 特征的模型远远优于具有 MFCC 特征的模型。此外,所有四个变体的融合一致优于单个模型。我们的最佳模型在两个数据集上的准确率分别为 84.7% 和 96.9%,超过了先前报道的结果。
Oct, 2023