Jun, 2024

Zyda:一个用于开放语言建模的 1.3T 数据集

TL;DR我们介绍了一个新的数据集 Zyda,由多个开源数据集整合而成,它拥有高质量的语料库,包含 1.3 万亿个标记。通过严格的过滤和去重处理,我们提高了 Zyda 的质量,并发现它不仅与其他开源数据集竞争力相当,还能大幅提升 Pythia 套件中可比模型的性能。我们的数据处理方法显著增强了 Zyda 的效果,甚至优于其单独使用的各个数据集中最好的效果。