通过对抗预测匹配进行数据集压缩

Dec, 2023

通过对抗预测匹配进行数据集压缩

Dataset Distillation via Adversarial Prediction Matching

Mingyang Chen, Bo Huang, Junda Lu, Bing Li, Yi Wang...

TL;DR用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Abstract

dataset distillation is the technique of synthesizing smaller condensed datasets from large original datasets while retaining necessary information to persist the effect. In this paper, we approach the dataset distillat

发现论文，激发创造

通过匹配训练轨迹进行数据集蒸馏

本研究提供了一种新的算法，使用合成数据集优化网络，可以快速、高效地将神经网络训练到与真实数据相似的状态，从而实现数据集精简化处理，并能够处理高分辨率视觉数据。

Mar, 2022

通过深度生成先验的数据集蒸馏泛化

Dataset Distillation technique using learned prior of deep generative models and a new optimization algorithm improves cross-architecture generalization by synthesizing few synthetic images from a large dataset.

May, 2023

DataDAM：高效数据集提炼与注意力匹配

采用高效的数据集提炼技术(DataDAM)，通过匹配真实数据和合成数据的不同层级生成的空间关注图，我们在多个数据集上实现了最先进的性能同时降低了训练成本。

Sep, 2023

数据蒸馏如同伏特加：多次蒸馏以提高质量

通过使用逐步数据集提取方法，这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态，并在不增加训练时间的情况下显著改善现有数据集提取方法的性能，同时还首次实现了生成更大的合成数据集。

Oct, 2023

通过曲率正则化实现对抗鲁棒的数据集精炼

研究提出了一种新方法，通过在蒸馏过程中加入曲率正则化，使得在生成的数据集上训练的模型在保持高准确性的同时获得更好的敌对鲁棒性，而且计算开销更小。实验证明该方法在准确性和鲁棒性方面都优于标准的敌对训练，并能生成经受住各种敌对攻击的鲁棒蒸馏数据集。

Mar, 2024

DD-RobustBench: 数据集提炼的敌对鲁棒性基准测试

数据集蒸馏是一种高级技术，旨在将数据集压缩为较小的对应物，同时保持强大的训练性能。本研究引入了一个全面的基准，用于评估统一方式下研究到目前为止最广泛的蒸馏数据集的对抗鲁棒性。通过结合更广泛的数据集蒸馏方法、包括TESLA和SRe2L等最新进展，多样化的对抗攻击方法，以及对ImageNet-1K等更广泛和更全面的数据集的评估，我们的基准在之前的努力基础上显著扩展。此外，我们评估了这些蒸馏数据集对抗性攻击算法（如PGD和AutoAttack）的鲁棒性，并从频率视角探索了它们的弹性。我们还发现，将蒸馏数据融入原始数据集的训练批次可以提高其鲁棒性。

Mar, 2024

生成式数据集精炼: 平衡全局结构与局部细节

本文提出了一种新的数据集蒸馏方法，该方法在将大型数据集蒸馏为生成模型时考虑了全局结构和局部细节的平衡。

Apr, 2024

课程数据蒸馏

本论文提出了一个基于课程设置的数据集蒸馏框架，通过将从简单到复杂的课程进行逐步蒸馏，合理处理合成图像的生成和评估，进一步利用对抗优化改进图像的代表性，提高其在不同神经网络体系结构下的泛化能力和抗噪性，实现了大规模数据集蒸馏的新突破。

May, 2024

样本不应平等使用：理解和改善数据集蒸馏

本研究针对数据集蒸馏（DD）中缺乏理论探索的问题，提出了一种样本难度的理解方法。通过对样本难度的实证分析，发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量，并引入了样本难度修正（SDC）方法，可作为现有技术的插件应用。实验结果显示，SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。

Aug, 2024

数据高效生成用于数据集蒸馏

本研究解决了深度学习在图像任务中面临的数据存储和计算成本过高的问题。通过训练一个类条件潜在扩散模型，生成可读的合成图像，显著提升了数据集性能并减少了蒸馏时间。该方法在ECCV 2024的首个数据集蒸馏挑战中，CIFAR100和TinyImageNet数据集上取得了第一名的佳绩。

Sep, 2024