DataDAM:高效数据集提炼与注意力匹配
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021
我们提出了一种新颖的数据集精炼方法,可以构建小型信息丰富的数据集,以保留大型原始数据集的信息。这种方法可以改善数据集精炼的性能,通过自动分配不同网络参数的重要性权重来合成更加稳健的精炼数据集,在多个基准数据集上表现优于其他最先进的数据集精炼方法,并在跨架构泛化方面胜过它们。此外,我们实验证明了自适应权重的有效性,并在 COVID-19 检测等现实世界医学应用中验证了 IADD 的有效性。
Jan, 2024
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情况下,相比最先进的精炼技术,提高了最高 4.8 个百分点和 4.2 个百分点的性能。
Mar, 2024
本文探讨了各种数据蒸馏技术,包括基于生成式教学网络、梯度匹配和隐函数定理的新方法,实验表明这些新方法比以前的方法更具计算效率并提高了在 MNIST 图像分类问题上训练模型性能。
Mar, 2022
本研究提供了一种新的算法,使用合成数据集优化网络,可以快速、高效地将神经网络训练到与真实数据相似的状态,从而实现数据集精简化处理,并能够处理高分辨率视觉数据。
Mar, 2022
本论文提出了一个基于课程设置的数据集蒸馏框架,通过将从简单到复杂的课程进行逐步蒸馏,合理处理合成图像的生成和评估,进一步利用对抗优化改进图像的代表性,提高其在不同神经网络体系结构下的泛化能力和抗噪性,实现了大规模数据集蒸馏的新突破。
May, 2024