基于分解的数据集精炼

Oct, 2022

Dataset Distillation via Factorization

Songhua Liu, Kai Wang, Xingyi Yang, Jingwen Ye, Xinchao Wang

TL;DR本文研究了数据集蒸馏领域，并提出了一种被称为HaBa的数据集分解方法，其探索将数据集分解为数据幻象网络和基础部分，利用两者之间的灵活组合使蒸馏数据具有指数信息增益，进一步提高了数据压缩结果的数据有效性和对跨体系结构的泛化能力。

Abstract

In this paper, we study \xw{dataset distillation (DD)}, from a novel perspective and introduce a \emph{dataset factorization} approach, termed \emph{→

发现论文，激发创造

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

使用无限宽的卷积神经网络进行数据集蒸馏

采用一种新的分布式基于核的元学习框架，使用无限宽的卷积神经网络，在数据集压缩中实现前沿的结果，通过对MNIST，Fashion-MNIST，CIFAR-10，CIFAR-100和SVHN等多个数据集的数据压缩进行初步分析，为数据如何与自然发生的数据不同提供了一些启示。

Jul, 2021

通过深度生成先验的数据集蒸馏泛化

Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.

May, 2023

数据集精炼综述：方法、应用与未来方向调查

该篇研究论文综述了数据集蒸馏的方法、应用和挑战，并提出了数据集内部信息密度的概念，旨在为后续的研究方向提供参考。

May, 2023

潜空间中的数据集蒸馏

该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间，通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码，从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题，以显著降低时间和空间开销，提高性能。

Nov, 2023

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

分布式数据集蒸馏与子任务分解

神经网络在从特定任务的数据集中进行训练时学到了什么？数据集精炼是合成这种知识的中心思想，我们提出了分布式数据集精炼（D3）方法，使用最小的充分类别统计信息，与解码器一起使数据集转化为一种更节省内存的分布式表示方法。通过对数据集进行分割、并行使用子任务专家进行精炼然后重新聚合的方式，我们提出了联邦精炼方法，以扩大学习这些表示的过程。我们对其进行全面评估，并在TinyImageNet和ImageNet-1K数据集上展示了其在三维度度量上达到了最先进结果。特别地，在每类存储预算为2张图片的情况下，我们在ImageNet-1K数据集上的结果优于先前的方法6.9%。

Mar, 2024

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型(D3M)作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

生成式数据集精炼: 平衡全局结构与局部细节

本文提出了一种新的数据集蒸馏方法，该方法在将大型数据集蒸馏为生成模型时考虑了全局结构和局部细节的平衡。

Apr, 2024

样本不应平等使用：理解和改善数据集蒸馏

本研究针对数据集蒸馏（DD）中缺乏理论探索的问题，提出了一种样本难度的理解方法。通过对样本难度的实证分析，发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量，并引入了样本难度修正（SDC）方法，可作为现有技术的插件应用。实验结果显示，SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。

Aug, 2024