大数据时代的数据集精炼
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
本论文提出了一个基于课程设置的数据集蒸馏框架,通过将从简单到复杂的课程进行逐步蒸馏,合理处理合成图像的生成和评估,进一步利用对抗优化改进图像的代表性,提高其在不同神经网络体系结构下的泛化能力和抗噪性,实现了大规模数据集蒸馏的新突破。
May, 2024
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
采用一种新的分布式基于核的元学习框架,使用无限宽的卷积神经网络,在数据集压缩中实现前沿的结果,通过对 MNIST,Fashion-MNIST,CIFAR-10,CIFAR-100 和 SVHN 等多个数据集的数据压缩进行初步分析,为数据如何与自然发生的数据不同提供了一些启示。
Jul, 2021
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
用于大规模真实数据集的数据集压缩方法 RDED 能够在短短 7 分钟内将完整的 ImageNet-1K 压缩为每类只有 10 张图像的小型数据集,并在单个 RTX-4090 GPU 上以 42% 的 Top-1 精度实现了显著的性能提升(而目前最先进方法仅达到 21% 的精度,且需要 6 小时)。
Dec, 2023
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.
May, 2023