Nov, 2023

探索数据质量的数据集规模指标

TL;DR现代计算机视觉基础模型是在大量数据的基础上进行训练的,这带来了巨大的经济和环境成本。最近的研究表明,提高数据质量可以显著减少对数据数量的需求。但是,在计算机视觉中,什么构成数据质量?我们认为,给定数据集的质量可以分解为不同的样本级和数据集级成分,而前者比后者得到了更深入的研究。我们通过监控这些成分,利用我们提供的关键指标,研究人员和实践者可以更好地预测模型的性能,以其准确性和对分布变化的鲁棒性来衡量。