利用梯度匹配和隐式微分来学习生成合成训练数据
本研究提供了一种新的算法,使用合成数据集优化网络,可以快速、高效地将神经网络训练到与真实数据相似的状态,从而实现数据集精简化处理,并能够处理高分辨率视觉数据。
Mar, 2022
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
本文提出了一种名为数据集精简的数据高效学习方法,该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络,并将此目标表述为深度神经网络权重梯度匹配问题,此技术在计算机视觉基准测试中表现出较高性能,并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。
Jun, 2020
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.
May, 2023
提出了一种新的方法,通过利用训练教师网络内在归一化层的统计信息来训练生成图像模型,从而在没有训练数据的情况下实现知识迁移、模型压缩和半监督学习,该方法在 CIFAR-10 和 CIFAR-100 数据集上表现出色,并能够将其扩展到 ImageNet 数据集。
Dec, 2020
采用高效的数据集提炼技术 (DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
Sep, 2023
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
Apr, 2021