MANorm: 使用拉丁文字写成的摩洛哥阿拉伯方言的规范化字典

COLINGJun, 2022

MANorm: 使用拉丁文字写成的摩洛哥阿拉伯方言的规范化字典

MANorm: A Normalization Dictionary for Moroccan Arabic Dialect Written in Latin Script

Randa Zarnoufi, Walid Bachri, Hamid Jaafar, Mounia Abik

TL;DR本研究利用基于 YouTube 评论语料库的词嵌入模型及提供了标准规范形式的摩洛哥阿拉伯语词典 MANorm，实现了摩洛哥阿拉伯语方言的规范化，证明其有效性。

Abstract

social media user-generated text is actually the main resource for many nlp tasks. This text however, does not follow the standard rules of writing. Moreover, the use of →

social media nlp dialect word embedding normalization

发现论文，激发创造

自动方言文本规范化中的方言识别技术的应用

阐述了方言阿拉伯语在社交媒体平台上的使用扩展以及由此带来的挑战，提出了 CODAfication 任务的解决方案，并通过使用方言识别信息来改善性能，在多个阿拉伯方言上进行了测试和预训练模型的评估。

Jul, 2024

奥克西唐语方言的正字法变异建模

通过对多种奥克西唐方言的数据进行微调，我们在本研究中成功地对一种多语种模型进行了评估，结果显示该模型能够较好地表示这些方言。我们还通过编制一个包含四种奥克西唐方言的平行词汇表进行评估，结果显示模型根据方言之间的表层相似性加强了表示。当进一步对模型进行词性标注和通用依存分析微调时，其性能对方言变异是稳定的，即使仅使用单个方言的词性数据进行训练。我们的发现表明，大型多语种模型可以在预处理过程中最小化拼写规范化的需求。

Apr, 2024

双语社区中基础语言规范化对不充分资源语言的非常规书写的影响

本文研究在社交媒体上，通过使用建模技术，对不同语言，特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理，而这有助于提高机器翻译和语言识别等下游任务的性能。

May, 2023

联合符号音标标注、词形还原、规范化和细粒度形态标注

该研究使用阿拉伯语探讨了联合建模的方法，具体包括字符级别的词汇化特征和字词级别的非词汇化特征，可以更好地将模糊的语言特征解模糊，进一步提高模型的效果和词义的准确性。该方法在现代标准阿拉伯语和阿拉伯埃及话方言的翻译中都取得了相对较好的实验结果。

Oct, 2019

基于机器翻译的阿拉伯方言自动标准化

利用人工注释语料库对电视剧马拉雅 2013 进行研究，探讨将不同阿拉伯方言通过机器翻译自动转化为标准阿拉伯语的问题，提出了基于统计模型的自动标准化方法，并将其与机器翻译软件结合，可进行教育应用，如将方言文本转化为标准阿拉伯语进行理解。

Jan, 2023

OSN-MDAD：在线社交媒体上阿拉伯多方言对话的机器翻译数据集

通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言，我们构建了一个在线社交网络基础多方言阿拉伯文数据集，用以改善阿拉伯文多方言机器翻译系统的性能。

Sep, 2023

波斯 - 阿拉伯文的书写规范化

本文讨论了波斯 - 阿拉伯文字在自然语言处理方面的挑战，强调了正规化对于脚本变异的重要性，并对 8 种语言的机器翻译和统计语言建模任务的性能进行了评估。结果表明，大多数条件下应用正规化可以显着提高性能，并指出了在语言资源匮乏的情况下，更好地理解和呈现区域正字传统内波斯 - 阿拉伯脚本变化对于现代计算机自然语言处理技术的进一步发展至关重要

Oct, 2022

摩洛哥方言文本情感分类的实验研究

本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究，在采用多种文本预处理和数据表现技术的前提下，证明深度学习模型胜于传统模型，我们达到了 90% 的准确性。

Mar, 2023

解释阿拉伯语 Transformer 模型

本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示，并使用三种内在任务对这些模型进行了层和神经元分析，包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现，单词形态是在较低和中间层中学习的；方言识别需要更多的知识，因此即使在最终层中也需要保留；尽管词汇有很大的重叠，基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别，而嵌入层中的神经元是多义的，而中间层中的神经元则专门用于特定的属性。

Jan, 2022

基于内容本地化的神经机器翻译系统：非正式方言阿拉伯语：西班牙语 / 法语到黎凡特 / 海湾阿拉伯语

通过利用人工智能的力量，我们提出了一个框架，将高资源语言的内容本土化到低资源的语言 / 方言，以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时，我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力，以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。

Dec, 2023