ICMLJun, 2024

数据集蒸馏学习是什么?

TL;DR数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。