ACLJun, 2021

QASR:QCRI Aljazeera 语音资源 -- 大规模标注的阿拉伯语音语料库

TL;DR该论文介绍了目前最大的阿拉伯语语音数据集 QASR,包含 2000 小时的文本和语音数据,可以用于语音识别、语音和 / 或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务,如命名实体识别和阿拉伯语标点修复,该数据集还提供了基线结果。