Dec, 2020
Pile: 一个包含多样文本的 800GB 语言建模数据集
The Pile: An 800GB Dataset of Diverse Text for Language Modeling
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe...
TL;DR本研究使用 825GB 的英文文本语料库,旨在训练大规模语言模型,通过 GPT-2 和 GPT-3 的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。