OSN-MDAD:在线社交媒体上阿拉伯多方言对话的机器翻译数据集
通过利用人工智能的力量,我们提出了一个框架,将高资源语言的内容本土化到低资源的语言 / 方言,以丰富资源不足的阿拉伯方言并加快地跨智能城市之间的多样的在线社交行为研究。同时,我们的实验结果证明了我们提出的解决方案在高低资源语言和方言之间的资源利用能力,以及忽视相同语言内的方言可能导致对在线社交行为的误导分析。
Dec, 2023
本文主要研究了基于深度学习与多模态语料库的阿拉伯情感分析的数据集,通过使用最先进的 transformers 和特征提取工具来建立我们的阿拉伯多模态数据集,并使用 state-of-the-art 的 transformer-based model 验证我们的数据集,研究表明阿拉伯多模态情感分析非常有前途。
Jun, 2023
提出利用内容本土化的基于神经机器翻译的方法,为低资源阿拉伯方言(如黎凡特语和海湾语)开发情感和仇恨分类器,并通过无监督学习推断隐藏主题,从而在其本土语言 / 方言中提供连贯的解释,从而实现准确区分情感并识别仇恨内容的有效性。
Nov, 2023
此篇研究论文介绍了在阿拉伯语中的方言识别问题,并提出了一种新的方法 —— 阿拉伯语方言水平(ALDi),这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析,并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语言风格选择方面的有用性。
Oct, 2023
本研究旨在改进方言阿拉伯语写作的在线用户生成文本的机器翻译,在 DA-EN UGT 领域使用一种半监督语言模型,结合监督和非监督建模目标,测量了推荐系统的情感翻译准确性,结果显示半监督 MT 系统有效改善了方言阿拉伯语 UGT 的情感翻译错误。
Oct, 2022
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了 SemEval-17 和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024
本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究,在采用多种文本预处理和数据表现技术的前提下,证明深度学习模型胜于传统模型,我们达到了 90% 的准确性。
Mar, 2023
在使用多语言语言模型进行低资源和高资源语言的任务中,阿拉伯语的方言差异引起了广泛关注。本文采用 mBERT 预训练和两种持续预训练方法,证明这些方法都可以帮助提高方言分类任务的性能。
Nov, 2022
本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示,并使用三种内在任务对这些模型进行了层和神经元分析,包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现,单词形态是在较低和中间层中学习的;方言识别需要更多的知识,因此即使在最终层中也需要保留;尽管词汇有很大的重叠,基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别,而嵌入层中的神经元是多义的,而中间层中的神经元则专门用于特定的属性。
Jan, 2022