通过生成模型进行数据集简化

Sep, 2023

Dataset Condensation via Generative Model

David Junhao Zhang, Heng Wang, Chuhui Xue, Rui Yan, Wenqing Zhang...

TL;DR将大型数据集通过生成模型进行压缩，通过内类和间类损失优化样本集合关系，提高优化速度和适应大型数据集的能力。

Abstract

dataset condensation aims to condense a large dataset with a lot of training samples into a small set. Previous methods usually condense the dataset into the pixels format. However, it suffers from slow optimization spe

dataset condensation generative model intra-class and inter-class loss optimization speed large datasets

发现论文，激发创造

通过有效的合成数据参数化压缩数据集

通过数据规则特征，提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架，并开发出有效的优化技术，提高了训练数据信息的压缩质量。

May, 2022

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

改进的分布匹配用于数据集浓缩

通过分布匹配的方法，我们提出了一种新的数据集精简方法，有效地减少了计算资源的使用，使得数据集精简能够应用于更大的数据集和模型。

Jul, 2023

使用梯度匹配的数据集压缩

本文提出了一种名为数据集精简的数据高效学习方法，该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络，并将此目标表述为深度神经网络权重梯度匹配问题，此技术在计算机视觉基准测试中表现出较高性能，并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。

Jun, 2020

DC-BENCH：数据集压缩基准测试

本研究提供了首个大规模的 Dataset Condensation 标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Jul, 2022

多尺度数据集精简

本文提出多尺寸数据集精简（Multisize Dataset Condensation，MDC）方法，通过将 N 个精简过程压缩成一个过程，以获取具有多种尺寸的数据集，并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。

Mar, 2024

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

对比信号的数据集压缩

本文提出了一种使用对比信号的数据集精简方法，被称为 Dataset Condensation with Contrastive signals (DCC)，通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异，实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。

Feb, 2022

加速超参数搜索的数据集压缩

本文提出了一种针对超参数搜索的新型超参数校准数据集压缩（HCDC）算法，通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集，实验证明该框架有效地维持了模型的验证性能排名，并加速了基于图像和图形的超参数 / 架构搜索任务。

May, 2024

利用潜空间知识分解和共享进行数据集压缩

本文提出了一种新方法，通过利用给定数据集中的规律，以生成模型的方式定义数据集，通过学习可压缩代码的潜在空间和解码器，可以显著地增加合成例子的数量并实现信息因式分解，从而在压缩比与生成质量之间提供更好的平衡。

Aug, 2022