古兰经音频数据集:非阿拉伯语者参与众包的标注朗诵
本文提出了一种端到端的深度学习模型,用于识别《古兰经》的朗诵。该模型使用了公共数据集进行评估,其识别性能表现为 8.34% 的单词错误率和 2.42% 的字符错误率。
May, 2023
该论文介绍了目前最大的阿拉伯语语音数据集 QASR,包含 2000 小时的文本和语音数据,可以用于语音识别、语音和 / 或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务,如命名实体识别和阿拉伯语标点修复,该数据集还提供了基线结果。
Jun, 2021
本文介绍了一个使用维基百科作为知识来源来解决阿拉伯语开放领域事实问题回答的方法,提出了阿拉伯阅读理解数据集(ARCD),并使用预训练的双向转换器 BERT 构建了 SOQAL 系统来回答问题,实验结果表明其有效性。
Jun, 2019
本文描述了作者们在 OSACT5 古兰经问答大赛中的尝试,基于 BERT 模型的阿拉伯语变体,我们提出了一种集成学习模型,并进行了后处理来增强模型预测。我们的系统在官方测试集上达到了 56.6%的部分倒数排名(pRR)分数。
Jun, 2022
介绍了 MyVoice,一个众包平台,用于收集阿拉伯语言以增强方言语音技术,并提供大型方言语音数据集的公开可用性。该平台允许参与者选择城市 / 国家级的细粒度方言,并录制显示的话语。通过过滤低质量和虚假录音,该平台整合了质量保证系统,在发送验证之前。在验证阶段,贡献者可以评估录音的质量,对其进行注释,并提供反馈,然后由管理员进行审核。此外,该平台为管理员角色提供了灵活性,可以添加与方言语音和词汇收集之外的新数据或任务,并将其显示给贡献者,从而促进收集多样化和大量的阿拉伯语言数据的协作努力。
Jul, 2023
通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS),我们填补了现有资源中阿拉伯语音语料库的空缺,以支持一些现代的端到端阿拉伯语音合成系统。
Feb, 2023
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用于多种口语识别任务的语言识别模型,自动检索的数据结果优于使用手工标记的专有数据集。
Nov, 2020
我们提出了一种处理古兰经 QA 2023 共享任务 A 和 B 的方法,通过迁移学习和投票集成来提高预测的稳定性。此外,我们针对两个任务使用不同的架构和学习机制,采用一系列基于阿拉伯语预训练变换器的模型。我们提出了一种阈值机制来识别无法回答的问题。在隐藏拆分上,我们的最佳系统大大超过基准性能,A 任务 MAP 得分为 25.05%,B 任务部分平均精度 (pAP) 为 57.11%。
Jan, 2024
本文介绍了 ArabicaQA,这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集,包含了 89095 个可回答和 3701 个无法回答的问题,以及其他标记的开放域问题。同时还介绍了 AraDPR,这是第一个针对阿拉伯文本检索的密集段落检索模型,经过阿拉伯维基百科语料库的训练,专门用于解决阿拉伯文本检索中的独特挑战。此外,我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试,并对其在阿拉伯语环境中的性能进行了批判性评估。总之,ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。
Mar, 2024
本文提出了一种使用 MFCC 和 LSTM 网络结合时序序列的自动 Tajweed 规则误读检测方法,用于帮助更多的穆斯林正确地诵读古兰经。在公共数据集 QDAT 上测试,LSTM 模型的准确率分别为 96%、95%和 96%,表现优于传统机器学习算法。
May, 2023