Nov, 2019

GitHub Typo Corpus:一个大规模多语言的错别字和语法错误数据集

TL;DR该研究介绍了一种新的语料库,即 GitHub Typo Corpus,旨在提供全球最大的单词拼写错误和语法错误数据集,以帮助 NLP 任务。基于该数据集的初步研究结果表明,该数据集可以作为一个新的拼写错误数据源,补充现有的数据集。