简单数据集压缩

Nov, 2023

Embarassingly Simple Dataset Distillation

Feng Yunzhen, Vedantam Ramakrishna, Kempe Julia

TL;DR通过 RaT-BPTT 方法解决数据集精炼的核心问题，从而建立起一种新的数据集精炼技术，用于生成包含近乎最佳性能子集的精炼数据集。

Abstract

dataset distillation extracts a small set of synthetic training samples from a large dataset with the goal of achieving competitive performance on test data when trained on this sample. In this work, we tackle dataset d

dataset distillation bilevel optimization problem random truncated backpropagation through time gradients distilled datasets

发现论文，激发创造

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

通过对抗预测匹配进行数据集压缩

用单层优化的对抗性框架，从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果，可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。

Dec, 2023

数据蒸馏如同伏特加：多次蒸馏以提高质量

通过使用逐步数据集提取方法，这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态，并在不增加训练时间的情况下显著改善现有数据集提取方法的性能，同时还首次实现了生成更大的合成数据集。

Oct, 2023

最小化累积轨迹误差以提高数据集蒸馏

本文提出了一种基于优化算法的 Flat Trajectory Distillation（FTD）方法来缓解 distortion 和 subsequent evaluation 之间的累积轨迹误差，实验证明该方法可提高梯度匹配方法的性能，并适用于神经架构搜索。

Nov, 2022

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

通过匹配训练轨迹进行数据集蒸馏

本研究提供了一种新的算法，使用合成数据集优化网络，可以快速、高效地将神经网络训练到与真实数据相似的状态，从而实现数据集精简化处理，并能够处理高分辨率视觉数据。

Mar, 2022

改进数据集精炼的跨架构泛化

使用模型池方法进行数据蒸馏，结合知识蒸馏技术进行测试，从而创造出小规模合成数据集，在性能上表现优于现有方法。

Feb, 2024

通过与平滑高质量专家轨迹的对齐实现高效的数据集精炼

本文提出了一种数据集蒸馏的方法，通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率，并提出代表性初始化、均衡内环损失和权重摄动等增强策略，以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明，该方法在各种规模、大小和分辨率的数据集上明显优于之前的方法。

Oct, 2023

关于精简数据集的多样性和真实性：一种高效的数据集精简范式

用于大规模真实数据集的数据集压缩方法 RDED 能够在短短 7 分钟内将完整的 ImageNet-1K 压缩为每类只有 10 张图像的小型数据集，并在单个 RTX-4090 GPU 上以 42% 的 Top-1 精度实现了显著的性能提升（而目前最先进方法仅达到 21% 的精度，且需要 6 小时）。

Dec, 2023

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024