Aug, 2018

WikiAtomicEdits: 用于语言和话语建模的维基百科编辑多语言语料库

TL;DR通过 Wikipedia 的编辑历史,我们发布了 4300 万次跨 8 种语言的原子编辑数据集,研究表明模型训练于编辑数据集与原始语料库将编码不同的语义和话语方面。