基于机器翻译的阿拉伯方言自动标准化

Jan, 2023

基于机器翻译的阿拉伯方言自动标准化

Automatic Standardization of Arabic Dialects for Machine Translation

Abidrabbo Alnassan

TL;DR利用人工注释语料库对电视剧马拉雅 2013 进行研究，探讨将不同阿拉伯方言通过机器翻译自动转化为标准阿拉伯语的问题，提出了基于统计模型的自动标准化方法，并将其与机器翻译软件结合，可进行教育应用，如将方言文本转化为标准阿拉伯语进行理解。

Abstract

Based on an annotated multimedia corpus, television series Mar{ā}y{ā} 2013, we dig into the question of ''automatic standardization'' of Arabic dialects for machine translation. Here we distinguish between rule-b

arabic dialects machine translation automatic standardization statistical models education

发现论文，激发创造

自动方言文本规范化中的方言识别技术的应用

阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战，提出了 CODAfication 任务的解决方案，并通过使用方言识别信息来改善性能，在多个阿拉伯方言上进行了测试和预训练模型的评估。

Jul, 2024

阿拉伯广播语音的自动方言识别

本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究，使用多类支持向量机（SVM）综合这些特征，并在阿拉伯语 / 英语语言识别任务中获得 100％的准确率。在本研究中，我们使用这些特征作为二元分类器来对现代标准阿拉伯语（MSA）和方言阿拉伯语进行区分，获得了 100％的准确率，然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种：埃及语，海湾语，黎凡特语，北非语和 MSA，准确率为 52％。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。

Sep, 2015

OSN-MDAD：在线社交媒体上阿拉伯多方言对话的机器翻译数据集

通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言，我们构建了一个在线社交网络基础多方言阿拉伯文数据集，用以改善阿拉伯文多方言机器翻译系统的性能。

Sep, 2023

基于内容本地化的神经机器翻译系统：非正式方言阿拉伯语：西班牙语 / 法语到黎凡特 / 海湾阿拉伯语

通过利用人工智能的力量，我们提出了一个框架，将高资源语言的内容本土化到低资源的语言 / 方言，以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时，我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力，以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。

Dec, 2023

阿拉伯语神经机器翻译的首个结果

本文应用神经机器翻译技术在阿拉伯语翻译任务中进行比较和预处理，并发现在处理适当的阿拉伯语脚本前，神经机器翻译和基于短语的翻译系统性能相近，但神经机器翻译在域外测试集上明显优于短语翻译系统，在实际应用中更具吸引力。

Jun, 2016

一个模型统治所有：方言码转换阿拉伯语自动语音识别的多语言策略

本研究采用自注意力机制，设计了一个大型的多语言端到端语音识别系统，使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现，并与当前最先进的系统进行了比较。结果表明，我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。

May, 2021

MANorm: 使用拉丁文字写成的摩洛哥阿拉伯方言的规范化字典

本研究利用基于 YouTube 评论语料库的词嵌入模型及提供了标准规范形式的摩洛哥阿拉伯语词典 MANorm，实现了摩洛哥阿拉伯语方言的规范化，证明其有效性。

Jun, 2022

生成和检测阿拉伯语操纵和虚假新闻的机器

本论文提出了一种利用真实新闻和 POS 标注生成阿拉伯语虚假新闻的新方法，并开发了第一届阿拉伯语虚假新闻检测模型，该模型通过使用基于 AraNews 的生成式新闻实现了最新的 F1=70.06 的结果，所有研究中使用的数据和模型都是公开可用的。

Nov, 2020

使用预训练语言模型进行阿拉伯语及其方言的形态句法标注

该研究利用预训练转换器语言模型对不同形式的阿拉伯语进行形态句法标记，优于现有系统，在不同区域的阿拉伯语可获得显著改进，特别是在资源匮乏的情况下，利用其他高资源方言的数据进行微调，以及使用高质量的形态分析器作为外部语言资源是有益的。

Oct, 2021

印度语言的统计机器翻译

本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型，实现英语和十五种低资源印度语言之间的翻译，包括使用 BLEU，METEOR 和 RIBES 等标准指标对翻译质量进行评估。

Jan, 2023