Sep, 2023

数据过滤网络

TL;DR通过构建数据过滤网络,该论文研究了大训练集上数据筛选的问题,并基于该网络构建了新的图像 - 文本数据集,为状态 - of-the-art 模型训练提供了高性能数据集,同时还释放了可从公开数据从头训练高性能数据过滤网络的新的 200 亿样本数据集,以促进数据集设计的进一步研究。