Jun, 2024

数据集精炼中,一个标签胜过千张图片

TL;DR数据质量是机器学习模型性能的关键因素,数据集精馏方法通过将训练数据集压缩为保持相似下游性能的较小版本来利用数据质量。通过剔除实验,我们发现当前最先进的精馏方法的性能取决于使用软标签而不是生成合成数据的具体技术。此外,我们还发现软标签的有效性与每类图像的数量之间存在经验性规律,挑战了传统的数据集精馏方法,并提出了改进精馏方法的新方向。