BriefGPT.xyz
Apr, 2020
MLSUM: 多语言摘要语料库
MLSUM: The Multilingual Summarization Corpus
HTML
PDF
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
TL;DR
我们提出了MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的150万篇文章/摘要对,与来自CNN / Daily mail数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Abstract
We present
mlsum
, the first large-scale
multilingual summarization
dataset
. Obtained from online newspapers, it contains 1.5M+ article/sum
→