本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法,并将数据子集选择的思想与数据集精馏相结合,通过相对贡献的实例的概念优化性能。
Jul, 2023
提出了一种名为 RFAD 的基于随机特征近似的数据集蒸馏算法,该算法能够在维持较高准确性的同时,大幅加速了现有的数据集压缩算法,能够应用于大规模数据集上,并适用于如模型解释和隐私保护等任务。
Oct, 2022
用 KIP 算法从大规模数据集中提取出适合于训练机器学习模型的小规模数据集且在保持模型性能的同时可以大幅减小数据集容量的同时可以实现隐私保护,该算法在 MNIST 和 CIFAR-10 的分类中获得了最先进的结果。
Oct, 2020
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。
Jun, 2024
使用课程数据增强方法,在大规模的 ImageNet-1K 和 ImageNet-21K 数据集上实现了最佳准确度,并在准确度上超越了目前的最先进模型。
Nov, 2023
通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响,本文提出了一个评估这一技术的大规模基准测评框架。
May, 2023
该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间,通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码,从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题,以显著降低时间和空间开销,提高性能。
通过 RaT-BPTT 方法解决数据集精炼的核心问题,从而建立起一种新的数据集精炼技术,用于生成包含近乎最佳性能子集的精炼数据集。