Feb, 2024

WanJuan-CC:安全且高质量的开源英语网络文本数据集

TL;DR该研究介绍了万卷 - CC(WanJuan-CC),一个安全且高质量的开源英文网络文本数据集,用于语言模型的大规模预训练数据集构建。