一次压缩，仅需两个规则：精简数据集的修剪法则

Oct, 2023

一次压缩，仅需两个规则：精简数据集的修剪法则

You Only Condense Once: Two Rules for Pruning Condensed Datasets

Yang He, Lingao Xiao, Joey Tianyi Zhou

TL;DR对于避免额外压缩过程具有计算禁止的情况，本文引入了 You Only Condense Once (YOCO) 与其它数据集压缩方法相比，在 CIFAR-10 数据集上取得了明显的准确度提升。

Abstract

dataset condensation is a crucial tool for enhancing training efficiency by reducing the size of the training dataset, particularly in on-device

dataset condensation training efficiency on-device scenarios you only condense once (yoco)dataset pruning methods

发现论文，激发创造

多尺度数据集精简

本文提出多尺寸数据集精简（Multisize Dataset Condensation，MDC）方法，通过将 N 个精简过程压缩成一个过程，以获取具有多种尺寸的数据集，并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。

Mar, 2024

一切只需一刀：单次切割增强数据

本文介绍了一种数据增强方法 —— You Only Cut Once（YOCO），它将图像分为两个部分分别进行数据增强，可以提高样本数据的多样性和鼓励神经网络从局部信息中识别对象；该方法易于使用、不需要调参，并可以免费提升几乎所有增强项的性能。通过在 CIFAR 和 ImageNet 数据集上的实验证明，YOCO 可以无缝适应于不同的数据增强方法和神经网络架构，并带来了显著的性能提升，在某些情况下甚至超过了传统的图像级别增强方法。同时，该方法还可以为对比学习的预训练提供更强大的表示，并可在多个下游任务中更好地转移。最后，我们还研究了 YOCO 的多种变体，并分别分析了它们在不同设置下的性能表现。

Jan, 2022

智能和简化学习的新方法：Koopcon

在大数据时代，数据集的体量和复杂性给机器学习，特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型，支持库普曼算子理论，有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发，采用一种新颖的编码和重构数据方法，保持了关键特征和标签分布。压缩过程利用自编码器神经网络结构、最优输运理论和瓦瑟斯坦距离，以最小化原始数据集和合成数据集之间的分布差异。我们提出了一个两阶段的实施策略：首先将大型数据集压缩成一个较小的合成子集；其次，通过训练一个分类器并将其性能与在等价原始数据子集上训练的分类器进行比较，来评估合成数据。我们的实验结果表明，使用压缩的数据训练的分类器表现与在原始数据集上训练的分类器相当，从而证明了我们压缩模型的有效性。这项工作不仅有助于减少计算资源的使用，还为受限环境下的高效数据处理铺平了道路，是数据高效机器学习的重要进展。

May, 2024

DC-BENCH：数据集压缩基准测试

本研究提供了首个大规模的 Dataset Condensation 标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Jul, 2022

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

通过生成模型进行数据集简化

将大型数据集通过生成模型进行压缩，通过内类和间类损失优化样本集合关系，提高优化速度和适应大型数据集的能力。

Sep, 2023

压缩、恢复和重新标记：新视角下的 ImageNet 规模数据集简化

SRe$^2$L 是一种新的数据集压缩框架，可以在训练期间解耦模型和合成数据的双层优化，以处理各种规模的数据集、模型结构和图像分辨率，具有高分辨率训练、低训练成本和内存消耗，以及在任意评估网络结构下扩展的能力。