Feb, 2024

大型语言模型的数据集:综述

TL;DR该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖8个语言类别和32个领域,包括来自444个数据集的统计信息,共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据;旨在为研究人员提供整个LLM文本数据集的全貌,并为未来的研究做出贡献。