Aug, 2018
WikiAtomicEdits: 用于语言和话语建模的维基百科编辑多语言语料库
WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse
Manaal Faruqui, Ellie Pavlick, Ian Tenney, Dipanjan Das
TL;DR通过 Wikipedia 的编辑历史,我们发布了 4300 万次跨 8 种语言的原子编辑数据集,研究表明模型训练于编辑数据集与原始语料库将编码不同的语义和话语方面。