SIGIRMar, 2024

ArabicaQA: 阿拉伯问答系统的综合数据集

TL;DR本文介绍了 ArabicaQA,这是第一个用于阿拉伯语机器阅读理解和开放域问题回答的大规模数据集,包含了 89095 个可回答和 3701 个无法回答的问题,以及其他标记的开放域问题。同时还介绍了 AraDPR,这是第一个针对阿拉伯文本检索的密集段落检索模型,经过阿拉伯维基百科语料库的训练,专门用于解决阿拉伯文本检索中的独特挑战。此外,我们还对大型语言模型在阿拉伯语问题回答中进行了广泛的基准测试,并对其在阿拉伯语环境中的性能进行了批判性评估。总之,ArabicaQA、AraDPR 和在阿拉伯语问题回答中的语言模型基准测试为阿拉伯语自然语言处理领域带来了重要的进展。数据集和代码对于进一步研究都是公开可访问的。