将数据集精简至不足一张图

Mar, 2024

Distilling Datasets Into Less Than One Image

Asaf Shul, Eliahu Horwitz, Yedid Hoshen

TL;DR通过压缩数据集，将数据集装入一张海报，我们提出了一种新的方法，可以使用小于每类一张图像的方式，实现与现有方法相媲美甚至更好的性能。

Abstract

dataset distillation aims to compress a dataset into a much smaller one so that a model trained on the distilled dataset achieves high accuracy. Current methods frame this as maximizing the distilled classification accuracy for a budget of K distilled images-per-class, where K is a pos

dataset distillation compressed dataset poster dataset distillation distilled pixels-per-dataset state-of-the-art performance

发现论文，激发创造

大数据时代的数据集精炼

使用课程数据增强方法，在大规模的 ImageNet-1K 和 ImageNet-21K 数据集上实现了最佳准确度，并在准确度上超越了目前的最先进模型。

Nov, 2023

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了 2-4% 的准确率。

Oct, 2019

课程数据蒸馏

本论文提出了一个基于课程设置的数据集蒸馏框架，通过将从简单到复杂的课程进行逐步蒸馏，合理处理合成图像的生成和评估，进一步利用对抗优化改进图像的代表性，提高其在不同神经网络体系结构下的泛化能力和抗噪性，实现了大规模数据集蒸馏的新突破。

May, 2024

使用无限宽的卷积神经网络进行数据集蒸馏

采用一种新的分布式基于核的元学习框架，使用无限宽的卷积神经网络，在数据集压缩中实现前沿的结果，通过对 MNIST，Fashion-MNIST，CIFAR-10，CIFAR-100 和 SVHN 等多个数据集的数据压缩进行初步分析，为数据如何与自然发生的数据不同提供了一些启示。

Jul, 2021

图像 - 文本检索的多模态数据集精炼

基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进，可通过只用 100 个训练对（数量减少一个数量级）几乎使图像到文本的检索准确率翻倍。

Aug, 2023

数据集精炼的全面研究：性能、隐私、鲁棒性和公平性

通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响，本文提出了一个评估这一技术的大规模基准测评框架。

May, 2023

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024