阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战,提出了 CODAfication 任务的解决方案,并通过使用方言识别信息来改善性能,在多个阿拉伯方言上进行了测试和预训练模型的评估。
Jul, 2024
本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究,使用多类支持向量机(SVM)综合这些特征,并在阿拉伯语 / 英语语言识别任务中获得 100%的准确率。在本研究中,我们使用这些特征作为二元分类器来对现代标准阿拉伯语(MSA)和方言阿拉伯语进行区分,获得了 100%的准确率,然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种:埃及语,海湾语,黎凡特语,北非语和 MSA,准确率为 52%。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。
Sep, 2015
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
Sep, 2023
通过利用人工智能的力量,我们提出了一个框架,将高资源语言的内容本土化到低资源的语言 / 方言,以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时,我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力,以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。
Dec, 2023
本文应用神经机器翻译技术在阿拉伯语翻译任务中进行比较和预处理,并发现在处理适当的阿拉伯语脚本前,神经机器翻译和基于短语的翻译系统性能相近,但神经机器翻译在域外测试集上明显优于短语翻译系统,在实际应用中更具吸引力。
Jun, 2016
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
本研究利用基于 YouTube 评论语料库的词嵌入模型及提供了标准规范形式的摩洛哥阿拉伯语词典 MANorm,实现了摩洛哥阿拉伯语方言的规范化,证明其有效性。
Jun, 2022
本论文提出了一种利用真实新闻和 POS 标注生成阿拉伯语虚假新闻的新方法,并开发了第一届阿拉伯语虚假新闻检测模型,该模型通过使用基于 AraNews 的生成式新闻实现了最新的 F1=70.06 的结果,所有研究中使用的数据和模型都是公开可用的。
Nov, 2020
该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记,优于现有系统,在不同区域的阿拉伯语可获得显著改进,特别是在资源匮乏的情况下,利用其他高资源方言的数据进行微调,以及使用高质量的形态分析器作为外部语言资源是有益的。
Oct, 2021
本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型,实现英语和十五种低资源印度语言之间的翻译,包括使用 BLEU,METEOR 和 RIBES 等标准指标对翻译质量进行评估。
Jan, 2023