Aug, 2024

样本不应平等使用:理解和改善数据集蒸馏

TL;DR本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。