Dec, 2020

Pile: 一个包含多样文本的 800GB 语言建模数据集

TL;DR本研究使用 825GB 的英文文本语料库,旨在训练大规模语言模型,通过 GPT-2 和 GPT-3 的预实验发现,这些模型在处理学术写作等特定组件上表现不佳,而在训练了语料库后在所有组件上都有了显著提高。同时,我们对数据进行了深入分析,提供代码用于其构建。