Aug, 2018

从维基百科编辑历史中学习拆分和改述技能

TL;DR通过挖掘Wikipedia的编辑历史,我们提取了一个丰富的新数据集WikiSplit,其中包含一百万个自然生成的句子重写,提供了比Narayan等人(2017)引入的WebSplit语料库更多的六十倍的不同分裂示例和九十倍的词汇量,将WikiSplit作为训练数据可以产生质量更好的模型,其预测结果在WebSplit基准测试中比之前的最佳结果高出32 BLEU点。