Apr, 2020

MLSUM: 多语言摘要语料库

TL;DR我们提出了MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的150万篇文章/摘要对,与来自CNN / Daily mail数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。