Apr, 2021

NewsEdits: 新闻文章修订历史记录数据集(技术报告:数据处理)

TL;DR本文介绍了NewsEdits语料库,该语料库是公开可用的新闻文章修订历史数据集,包含超过120万篇文章、460万个版本以及7200万个原子编辑,是目前任何领域修订历史的最大语料库。数据集跨越三个国家,包括22个英语和法语的报纸来源,横跨语言和学科,具有值得探索的潜力。