Oct, 2022

LANS:大规模阿拉伯新闻摘要语料库

TL;DR我们建立了一个大型、多样性的阿拉伯文本摘要数据集 LANS,该数据集为 1999 年至 2019 年期间从报纸网站元数据中提取的 840 万篇文章及其摘要。该数据集包含来自 22 家主要阿拉伯报纸的多样化和高质量的摘要,每个来源至少涵盖 7 个以上的主题。自动和人工评估均表明,我们的摘要准确度高达 95.4%,并且具有摘要的多样性和抽象性。该数据集可应要求公开使用。