ALDi:量化文本中阿拉伯方言程度
在多方言阿拉伯数据集的标注中,将样本随机分配给一组阿拉伯母语者是常见的。最近的分析推荐将方言样本分配给其各自方言的母语者,以构建更高质量的数据集。然而,自动识别样本的方言是困难的。此研究通过分析 ALDi 得分和标注者一致性之间的关系,在 15 个公共数据集上得出强有力的支持,从而证明了我们的假设。因此,我们建议将高 ALDi 得分的样本优先分配给每个样本方言的本地说话者,并能够以较高精度自动识别方言。
May, 2024
Automatic Arabic Dialect Identification (ADI) 系统无法准确区分阿拉伯语的微方言,我们建议将 ADI 任务构建为多标签分类任务并提供设计新的 ADI 数据集的建议。
Oct, 2023
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
Sep, 2023
阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战,提出了 CODAfication 任务的解决方案,并通过使用方言识别信息来改善性能,在多个阿拉伯方言上进行了测试和预训练模型的评估。
Jul, 2024
用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集,并使用多个筛选器识别用户并准确识别方言,这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。
May, 2020
本文介绍了 Mawdoo3 AI 团队开发的预训练 BERT 模型的表现,以及该模型在 Nuanced Arabic Dialect Identification(NADI)共享任务的子任务 1 中获胜的过程和方法,并公开了 Multi-dialect-Arabic-BERT 模型的预训练语言模型组件,供其他研究人员使用。
Jul, 2020
通过自监督学习模型、迁移学习和直接分类器,对阿拉伯语方言识别系统进行评估,研究其在领域漂移情况下的鲁棒性,并发现自我训练虽能减轻此类挑战,但在实际应用中可能不足够。
Jun, 2023
本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究,使用多类支持向量机(SVM)综合这些特征,并在阿拉伯语 / 英语语言识别任务中获得 100%的准确率。在本研究中,我们使用这些特征作为二元分类器来对现代标准阿拉伯语(MSA)和方言阿拉伯语进行区分,获得了 100%的准确率,然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种:埃及语,海湾语,黎凡特语,北非语和 MSA,准确率为 52%。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。
Sep, 2015
本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus,并对其词干和词缀进行了分词和词形注解。
Dec, 2022
提出利用内容本土化的基于神经机器翻译的方法,为低资源阿拉伯方言(如黎凡特语和海湾语)开发情感和仇恨分类器,并通过无监督学习推断隐藏主题,从而在其本土语言 / 方言中提供连贯的解释,从而实现准确区分情感并识别仇恨内容的有效性。
Nov, 2023