- 马格里布情感分析器的同形攻击
研究通过在洲际海峡北美洲国家的不同阿拉伯方言中对同音异义词攻击对情感分析(SA)任务的影响,发现当数据以 “Arabizi” 书写时,同音异义词攻击导致 Transformer 分类的 F1 分数从 0.95 降低到 0.33,旨在凸显 L - 基于内容本地化的低资源方言阿拉伯语情感和仇恨行为分析系统:从英语到黎凡特语和海湾语
提出利用内容本土化的基于神经机器翻译的方法,为低资源阿拉伯方言(如黎凡特语和海湾语)开发情感和仇恨分类器,并通过无监督学习推断隐藏主题,从而在其本土语言 / 方言中提供连贯的解释,从而实现准确区分情感并识别仇恨内容的有效性。
- 利用深度学习进行阿尔及利亚方言中的仇恨言论检测
我们提出了一种针对在线阿尔及利亚信息的检测仇恨言论的完整方法,并在阿尔及利亚方言的语料库上评估了许多深度学习架构,结果表明我们的方法的效果显著。
- Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像 G - ICLR从本地到全球:在非洲语言多样性中的导航
通过评估多种方法的有效性,我们提出了一种修改后的方法来分析处理非洲本地方言的挑战,特别是阿拉伯方言,对于寻求提高客户体验和产品开发的业务来说具有重要的影响。
- 摩洛哥方言文本情感分类的实验研究
本文目的在于通过情感分析依据机器学习模型对 YouTube 摩洛哥方言评论进行分类研究,在采用多种文本预处理和数据表现技术的前提下,证明深度学习模型胜于传统模型,我们达到了 90% 的准确性。
- 基于机器翻译的阿拉伯方言自动标准化
利用人工注释语料库对电视剧马拉雅 2013 进行研究,探讨将不同阿拉伯方言通过机器翻译自动转化为标准阿拉伯语的问题,提出了基于统计模型的自动标准化方法,并将其与机器翻译软件结合,可进行教育应用,如将方言文本转化为标准阿拉伯语进行理解。
- 利山语:带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库
本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus,并对其词干和词缀进行了分词和词形注解。
- 基于阿拉伯语推文的预训练 BERT:实践考虑
本研究使用不同规模的训练集、正式和非正式阿拉伯语以及不同的语言预处理方式对 BERT 进行预训练,旨在支持阿拉伯方言和社交媒体。实验证实了数据多样性与语言感知分词的核心作用,也证明了更多的数据或更多的训练步骤并不能保证更好的模型,最终得到的 - COLING使用基于 BERT 的领域自适应进行阿拉伯方言识别
本文介绍了使用深度学习和半监督的方法对不同的 21 个阿拉伯方言进行区分,并在 NADI 共享任务竞赛中排名第 4,其 F1 宏平均得分为 23.09%。
- 野外阿拉伯方言识别
用 QADI 建立了一个包含来自 18 个阿拉伯国家范围内不同方言的推特的数据集,并使用多个筛选器识别用户并准确识别方言,这个数据集可用于对不同阿拉伯国家范围内方言的鉴别研究。
- TUNIZI: 一个突尼斯阿拉伯语情感分析数据集
本研究介绍了 TUNIZI,一种情感分析突尼斯语阿拉伯字母表数据集,旨在开发和提高分析研究,通过社交媒体收集并由突尼斯本土讲话者手动标注准备。
- 卷积神经网络和语言嵌入用于端到端方言识别
该论文介绍了使用基于 Siamese 神经网络和集成多种声学和语言特征的端到端方言识别系统,分析了在阿拉伯语言境下的效果,并探讨了数据扩充和特征融合等策略,最终获得了 78% 的分类准确率。