Jun, 2024

DataComp-LM: 寻找下一代语言模型训练集

TL;DR我们引入了用于语言模型的DataComp(DCLM)的测试平台,通过进行受控的数据集实验来改进语言模型。作为DCLM的一部分,我们提供了从Common Crawl中提取的标准化语料库,基于OpenLM框架的有效预训练方法以及广泛的53个下游评估。DCLM基准模型的实验结果表明,基于模型的过滤是组装高质量训练集的关键。我们的研究结果强调了训练语言模型的数据集设计的重要性,并为进一步研究数据策划提供了一个起点。