Dec, 2023

大规模语言模型的数据管理:一项调查

TL;DR数据管理在大型语言模型的训练中起着基础性的作用,本文调查了数据管理在预训练和有监督微调阶段的各个方面,包括数据数量、数据质量、领域 / 任务组成等,为构建强大的大型语言模型提供了指导资源。