- EMNLPALDi:量化文本中阿拉伯方言程度
此篇研究论文介绍了在阿拉伯语中的方言识别问题,并提出了一种新的方法 —— 阿拉伯语方言水平(ALDi),这是一个连续的语言变量。研究使用 AOC-ALDi 数据集进行分析,并通过案例研究展示了 ALDi 在揭示阿拉伯语使用者在不同情境中的语 - EMNLPVoxArabica: 一个强壮的方言感知阿拉伯语语音识别系统
Arabic is a complex language, and this research introduces VoxArabica, a system for dialect identification and automatic - OSN-MDAD:在线社交媒体上阿拉伯多方言对话的机器翻译数据集
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
- AceGPT,在阿拉伯语中本地化大型语言模型
本文探讨了为阿拉伯语开发本土化大型语言模型(LLM)的必要性和方法论,介绍了一种完整的解决方案,包括使用阿拉伯语文本进行进一步的预训练,使用阿拉伯语指令和阿拉伯语回复进行监督微调(SFT),以及使用对本土文化和价值观敏感的奖励模型进行强化学 - ALJP:基于机器学习模型的个人状态案件的阿拉伯语法律判决预测
本篇文章介绍了一个系统,利用深度学习和自然语言处理技术,通过阿拉伯案例脚本来预测判决结果,特别是在监护和婚姻废止案件中。该系统将协助法官和律师提高工作效率和时间效率,减少判决差异,同时帮助诉讼当事人、律师和法学生在庭审前分析任何给定案件的可 - AraMUS: 将数据和模型规模的极限推向阿拉伯语自然语言处理
本文介绍 AraMUS—— 最大的预训练阿拉伯语言模型,基于 529GB 高质量的阿拉伯文本数据,该模型在通用语言处理任务中达到了最先进的性能。此外,与现有的阿拉伯语言模型相比,AraMUS 表现出了优秀的少样本学习能力。
- 面向阿拉伯语多模态情感分析数据集
本文主要研究了基于深度学习与多模态语料库的阿拉伯情感分析的数据集,通过使用最先进的 transformers 和特征提取工具来建立我们的阿拉伯多模态数据集,并使用 state-of-the-art 的 transformer-based m - 使用对抗和基于信号增强技术的阿拉伯语运动失调言语识别
本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能,具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这 - 基于 N-Shot 的 Whisper 在多样化阿拉伯语音识别中的基准测试
本研究对 Whisper 在多种阿拉伯口音(包括几种没见过的口音)上进行了综合评估,结果发现 Whisper 在零 - shot 设置下性能较好,但在五种未见过的方言上性能明显下降。
- GPTAraEval:基于阿拉伯语 NLP 的 ChatGPT 全面评估
本文介绍了一项大规模的 ChatGPT 在阿拉伯语自然语言处理方面的评估,结果显示,尽管该模型在英语基准测试上表现出色,但其在阿拉伯语数据集上的性能表现不如针对阿拉伯语进行优化的专用模型。
- 阿拉伯语语法错误检测和校正的进展:实证研究
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿 - 测量大型语言模型中的文化偏见:祈祷后喝啤酒?
本文探讨语言模型是否存在文化偏见,研究发现目前的语言模型在处理和生成阿拉伯语文本时存在明显的西方文化偏见,特别是在人名、食物、服装、地点、文学、饮料、宗教和体育等八个方面。同时,研究表明,向模型提供文化指示符或相关文化示范可以帮助消除偏见。
- 一种用于阿拉伯语代词消解的序列到序列方法
该论文提出了一种序列到序列的学习方法,探究了利用先进的自然语言处理(NLP)技术,特别是 Bi-LSTM 和 BERT 预训练语言模型,解决阿拉伯语代词消解问题的有效性。作者建议的方法在 AnATAr 数据集上进行了评估,并与包括传统机器学 - 阿拉伯语 ASR 中的语音符号识别性能
本研究分析了阿拉伯语自动语音识别(ASR)系统中音标识别的表现,并比较了文本音标处理与 ASR 音标处理的表现。通过在不同音标化条件下对语音数据进行细化和对比,我们发现 ASR 音标处理特别是在手动音标化的情况下表现优异。
- 探测阿拉伯推文中当局对谣言的态度:初步研究
本文旨在探讨如何增加现有谣言验证系统所使用的证据来源。我们定义了一项新任务,即检测 Twitter 中权威机构对流言的立场,收集了来自权威时间线的证据,并构建了第一个权威对流言立场数据集。我们研究了现有数据集对于解决该任务的效用,发现它们有 - 阿拉伯语至英语广播新闻的端到端语音翻译
本文介绍了第一个基于端到端范式的新闻广播阿拉伯语到英语语音翻译系统,并探讨了数据增强和转移学习等多种场景下基于管道和端到端的语音翻译系统的训练和比较。
- Camelira: 一种阿拉伯多方言形态歧义消解器
Camelira 是一个基于 Web 的阿拉伯语多方言形态消歧工具,覆盖现代标准阿拉伯语、埃及语、海湾和黎凡特等四种主要方言,提供友好的 Web 界面,帮助研究人员和学习者探索各种语言信息,并提供根据方言识别组件的预测自动选择适当的方言特定 - EMNLP2022 年 WANLP 共享任务:阿拉伯语宣传检测概述
该研究论文描述了关于如何检测阿拉伯推特上的宣传技术的共享任务,该任务吸引了 63 个团队注册,11 个团队提交了系统描述论文。
- IITD 在 WANLP 2022 共享任务中:用于宣传检测的多语言多粒度网络
使用 XLM-R 模型预测给定推文中每个宣传技术的概率,运用多粒度神经网络与 mBERT 编码器,基于大规模阿拉伯语数据集进行多标签分类及序列标注任务,该方法在 WANLP'2022 的两项子任务中获得第二名。
- 性别重写共享任务
本文介绍了第七届阿拉伯语自然语言处理研讨会上举办的 Gender Rewriting 共享任务的结果和发现,该任务需要生成给定句子的替代版本以匹配不同的目标用户性别背景(例如女性发言人与男性听众、男性发言人与男性听众等等),这需要改变涉及用