Nov, 2023

Oasis: 大型语言模型预训练的数据筛选和评估系统

TL;DR数据是构建大规模语言模型的最关键元素之一,我们提出了一个名为 Oasis 的预训练数据整理和评估平台,通过用户友好的交互界面实现数据质量改进和量化评估,平台包括自定义数据整理模块和全面的数据评估模块,还发布了由 Oasis 整理的一个 800GB 双语语料库。