Feb, 2024

大型语言模型的数据集:综述

TL;DR该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。