关于蒸馏集合的大小和逼近误差

May, 2023

On the Size and Approximation Error of Distilled Sets

Alaa Maalouf, Murad Tukan, Noel Loo, Ramin Hasani, Mathias Lechner...

TL;DR本文从理论角度探究基于核岭回归（KRR）的数据集精简方法，证明了在随机傅里叶特征空间中存在与原始数据解重合的一小组实例，利用这些实例可以生成 KRR 解，从而实现对完整输入数据的解近似优化。

Abstract

dataset distillation is the task of synthesizing small datasets from large ones while still retaining comparable predictive accuracy to the original uncompressed dataset. Despite significant empirical progress in

dataset distillation kernel ridge regression small datasets excess risk random fourier features

发现论文，激发创造

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

使用随机特征逼近进行高效数据集蒸馏

提出了一种名为 RFAD 的基于随机特征近似的数据集蒸馏算法，该算法能够在维持较高准确性的同时，大幅加速了现有的数据集压缩算法，能够应用于大规模数据集上，并适用于如模型解释和隐私保护等任务。

Oct, 2022

基于核岭回归的数据集元学习

用 KIP 算法从大规模数据集中提取出适合于训练机器学习模型的小规模数据集且在保持模型性能的同时可以大幅减小数据集容量的同时可以实现隐私保护，该算法在 MNIST 和 CIFAR-10 的分类中获得了最先进的结果。

Oct, 2020

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

数据集蒸馏学习是什么？

数据集精炼是一种克服大数据集困难的策略，通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题，揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练，但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息，从而更好地理解了精炼数据的复杂性及其有效利用。

Jun, 2024

大数据时代的数据集精炼

使用课程数据增强方法，在大规模的 ImageNet-1K 和 ImageNet-21K 数据集上实现了最佳准确度，并在准确度上超越了目前的最先进模型。

Nov, 2023

数据集精炼的全面研究：性能、隐私、鲁棒性和公平性

通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响，本文提出了一个评估这一技术的大规模基准测评框架。

May, 2023

潜空间中的数据集蒸馏

该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间，通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码，从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题，以显著降低时间和空间开销，提高性能。

Nov, 2023

简单数据集压缩

通过 RaT-BPTT 方法解决数据集精炼的核心问题，从而建立起一种新的数据集精炼技术，用于生成包含近乎最佳性能子集的精炼数据集。

Nov, 2023