基于分解的数据集精炼
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
采用一种新的分布式基于核的元学习框架,使用无限宽的卷积神经网络,在数据集压缩中实现前沿的结果,通过对MNIST,Fashion-MNIST,CIFAR-10,CIFAR-100和SVHN等多个数据集的数据压缩进行初步分析,为数据如何与自然发生的数据不同提供了一些启示。
Jul, 2021
Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.
May, 2023
该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间,通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码,从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题,以显著降低时间和空间开销,提高性能。
Nov, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
神经网络在从特定任务的数据集中进行训练时学到了什么?数据集精炼是合成这种知识的中心思想,我们提出了分布式数据集精炼(D3)方法,使用最小的充分类别统计信息,与解码器一起使数据集转化为一种更节省内存的分布式表示方法。通过对数据集进行分割、并行使用子任务专家进行精炼然后重新聚合的方式,我们提出了联邦精炼方法,以扩大学习这些表示的过程。我们对其进行全面评估,并在TinyImageNet和ImageNet-1K数据集上展示了其在三维度度量上达到了最先进结果。特别地,在每类存储预算为2张图片的情况下,我们在ImageNet-1K数据集上的结果优于先前的方法6.9%。
Mar, 2024
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型(D3M)作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。
Aug, 2024