ACLJun, 2021
QASR:QCRI Aljazeera 语音资源 -- 大规模标注的阿拉伯语音语料库
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus
Hamdy Mubarak, Amir Hussein, Shammur Absar Chowdhury, Ahmed Ali
TL;DR该论文介绍了目前最大的阿拉伯语语音数据集 QASR,包含 2000 小时的文本和语音数据,可以用于语音识别、语音和 / 或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务,如命名实体识别和阿拉伯语标点修复,该数据集还提供了基线结果。