Jun, 2023

使用网络数据,仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

TL;DR本文表明,即使仅使用经过过滤和去重的网络数据,也可以训练出性能良好的大型语言模型,其训练数据量可以达到万亿级别,不需要过多地依赖于高质量的非网络数据的训练数据集。