通过极小极大扩散实现高效数据集精炼

Nov, 2023

通过极小极大扩散实现高效数据集精炼

Efficient Dataset Distillation via Minimax Diffusion

Jianyang Gu, Saeed Vahidian, Vyacheslav Kungurtsev, Haonan Wang, Wei Jiang...

TL;DR通过使用生成扩散技术计算替代数据集，本研究提出了一种新的数据集提炼方法，以增强生成图像的代表性和多样性，并在要求更少计算资源的同时，实现了最新的验证性能。

Abstract

dataset distillation reduces the storage and computational consumption of training a network by generating a small surrogate dataset that encapsulates rich information of the original large-scale one. However, pr

dataset distillation generative diffusion techniques surrogate dataset representativeness diversity

发现论文，激发创造

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

潜在数据集精炼与扩散模型

我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法（LD3M），旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战，并在多个 ImageNet 子集和高分辨率图像上实验表明，LD3M 在 1 个和 10 个图像每类的情况下，相比最先进的精炼技术，提高了最高 4.8 个百分点和 4.2 个百分点的性能。

Mar, 2024

课程数据蒸馏

本论文提出了一个基于课程设置的数据集蒸馏框架，通过将从简单到复杂的课程进行逐步蒸馏，合理处理合成图像的生成和评估，进一步利用对抗优化改进图像的代表性，提高其在不同神经网络体系结构下的泛化能力和抗噪性，实现了大规模数据集蒸馏的新突破。

May, 2024

数据蒸馏如同伏特加：多次蒸馏以提高质量

通过使用逐步数据集提取方法，这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态，并在不增加训练时间的情况下显著改善现有数据集提取方法的性能，同时还首次实现了生成更大的合成数据集。

Oct, 2023

大数据时代的数据集精炼

使用课程数据增强方法，在大规模的 ImageNet-1K 和 ImageNet-21K 数据集上实现了最佳准确度，并在准确度上超越了目前的最先进模型。

Nov, 2023

将数据集精简至不足一张图

通过压缩数据集，将数据集装入一张海报，我们提出了一种新的方法，可以使用小于每类一张图像的方式，实现与现有方法相媲美甚至更好的性能。

Mar, 2024

组分布稳健数据集蒸馏及风险最小化

通过结合聚类和风险度量的最小化算法，实现数据集精炼，具备对子群体的有效泛化和稳健性，为解决合成数据集在面对低人口密度地区样本时表现优秀的问题提供了理论依据和数值实验验证。

Feb, 2024

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

医疗数据集提炼的渐进式轨迹匹配

我们提出了一种新的医学图像数据集精华方法，通过设计新的渐进轨迹匹配策略提高了医学图像数据集精华的训练稳定性，并通过动态消除不同图像之间的重叠来改善合成数据集的多样性和最终性能，进而在各种模态和配置上建立了一个新的医学图像数据集精华基准，实验证明我们提出的方法相比之前的最先进方法平均提高了 8.33%，当 ipc=2 时，提高了 11.7%。

Mar, 2024