生成式数据集精炼: 平衡全局结构与局部细节
针对数据集蒸馏的问题,我们提出了用合成标签来训练模型,比基于图像的方法更为有效;我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略,这种新算法可以提高模型的性能,并且可兼容各个优化器及不同的神经结构。我们的研究发现,标签蒸馏还能夸数据集应用,例如只通过合成标签的英文字母来训练以学习日文字母识别。
Jun, 2020
提出了一种新的方法,通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型,从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习,该方法在 CIFAR-10 和CIFAR-100 数据集上表现出色,并能够将其扩展到 ImageNet 数据集。
Dec, 2020
Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.
May, 2023
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型(D3M)作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
本论文提出了一个基于课程设置的数据集蒸馏框架,通过将从简单到复杂的课程进行逐步蒸馏,合理处理合成图像的生成和评估,进一步利用对抗优化改进图像的代表性,提高其在不同神经网络体系结构下的泛化能力和抗噪性,实现了大规模数据集蒸馏的新突破。
May, 2024
通过在生成对抗网络中逐渐跨越初始潜在空间到最终像素空间,以及引入一个新的与类别相关的特征距离度量方法,我们提出了一种名为层次生成潜在蒸馏(H-GLaD)的新型参数化方法,用于在不同层次的层中系统地探索。实验证明,所提出的H-GLaD在相同架构和不同架构性能上显著改进,且时间开销相等。
Jun, 2024
本研究解决了深度学习在图像任务中面临的数据存储和计算成本过高的问题。通过训练一个类条件潜在扩散模型,生成可读的合成图像,显著提升了数据集性能并减少了蒸馏时间。该方法在ECCV 2024的首个数据集蒸馏挑战中,CIFAR100和TinyImageNet数据集上取得了第一名的佳绩。
Sep, 2024