Dec, 2018

自然语言和量化语言统计分析的标准化古腾堡语料库

TL;DR本文介绍了标准化项目古腾堡语料库(SPGC),这是一个由超过50000本书组成、包含30亿词组标记的项目古腾堡数据的版本,旨在解决PG缺乏共识版完整版本并考虑其对文学研究的影响。我们公开了详细的方法论以及用于处理数据的代码和三个粒度的PG数据,使其成为语料库、自然语言处理和信息检索新的科学资源。