数据集精简遇见可证明的子集选择
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。
Jun, 2024
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.
May, 2023
该研究以实际数据集为基础,探索一种简单的数据精炼技术在原型软标签精炼中的潜力,通过集成优化步骤以提高分类准确性,并对不平衡度不同的数据集进行实验验证,发现该方法在数据精炼和数据增强方面的能力。
Mar, 2024