Oct, 2022
LANS:大规模阿拉伯新闻摘要语料库
LANS: Large-scale Arabic News Summarization Corpus
Abdulaziz Alhamadani, Xuchao Zhang, Jianfeng He, Chang-Tien Lu
TL;DR我们建立了一个大型、多样性的阿拉伯文本摘要数据集 LANS,该数据集为 1999 年至 2019 年期间从报纸网站元数据中提取的 840 万篇文章及其摘要。该数据集包含来自 22 家主要阿拉伯报纸的多样化和高质量的摘要,每个来源至少涵盖 7 个以上的主题。自动和人工评估均表明,我们的摘要准确度高达 95.4%,并且具有摘要的多样性和抽象性。该数据集可应要求公开使用。