本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
通过软标签同时提取图像和标签以减少数据集的大小,拓展算法至可用于文本数据,对于多个数据集和分类任务提高了2-4%的准确率。
Oct, 2019
该篇研究论文综述了数据集蒸馏的方法、应用和挑战,并提出了数据集内部信息密度的概念,旨在为后续的研究方向提供参考。
May, 2023
通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响,本文提出了一个评估这一技术的大规模基准测评框架。
本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法,并将数据子集选择的思想与数据集精馏相结合,通过相对贡献的实例的概念优化性能。
Jul, 2023
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
使用课程数据增强方法,在大规模的ImageNet-1K和ImageNet-21K数据集上实现了最佳准确度,并在准确度上超越了目前的最先进模型。
Nov, 2023
用于大规模真实数据集的数据集压缩方法RDED能够在短短7分钟内将完整的ImageNet-1K压缩为每类只有10张图像的小型数据集,并在单个RTX-4090 GPU上以42%的Top-1精度实现了显著的性能提升(而目前最先进方法仅达到21%的精度,且需要6小时)。
Dec, 2023
神经网络在从特定任务的数据集中进行训练时学到了什么?数据集精炼是合成这种知识的中心思想,我们提出了分布式数据集精炼(D3)方法,使用最小的充分类别统计信息,与解码器一起使数据集转化为一种更节省内存的分布式表示方法。通过对数据集进行分割、并行使用子任务专家进行精炼然后重新聚合的方式,我们提出了联邦精炼方法,以扩大学习这些表示的过程。我们对其进行全面评估,并在TinyImageNet和ImageNet-1K数据集上展示了其在三维度度量上达到了最先进结果。特别地,在每类存储预算为2张图片的情况下,我们在ImageNet-1K数据集上的结果优于先前的方法6.9%。
Mar, 2024
数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。
Jun, 2024