Jan, 2022

堆数据表

TL;DRPile 数据集是由 EleutherAI 收集的 825 个 Gib 的人类编写文本数据集,由 22 个不同的文本来源组成,可用于大规模语言建模。