本文提出多尺寸数据集精简(Multisize Dataset Condensation,MDC)方法,通过将 N 个精简过程压缩成一个过程,以获取具有多种尺寸的数据集,并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。
Mar, 2024
本文介绍了一种数据增强方法 —— You Only Cut Once(YOCO),它将图像分为两个部分分别进行数据增强,可以提高样本数据的多样性和鼓励神经网络从局部信息中识别对象;该方法易于使用、不需要调参,并可以免费提升几乎所有增强项的性能。通过在 CIFAR 和 ImageNet 数据集上的实验证明,YOCO 可以无缝适应于不同的数据增强方法和神经网络架构,并带来了显著的性能提升,在某些情况下甚至超过了传统的图像级别增强方法。同时,该方法还可以为对比学习的预训练提供更强大的表示,并可在多个下游任务中更好地转移。最后,我们还研究了 YOCO 的多种变体,并分别分析了它们在不同设置下的性能表现。
Jan, 2022
在大数据时代,数据集的体量和复杂性给机器学习,特别是图像处理任务带来了重大挑战。本文介绍了一种基于自编码器的数据集压缩模型,支持库普曼算子理论,有效地将大规模数据集压缩成紧凑、信息丰富的表示。该模型受人脑预测编码机制的启发,采用一种新颖的编码和重构数据方法,保持了关键特征和标签分布。压缩过程利用自编码器神经网络结构、最优输运理论和瓦瑟斯坦距离,以最小化原始数据集和合成数据集之间的分布差异。我们提出了一个两阶段的实施策略:首先将大型数据集压缩成一个较小的合成子集;其次,通过训练一个分类器并将其性能与在等价原始数据子集上训练的分类器进行比较,来评估合成数据。我们的实验结果表明,使用压缩的数据训练的分类器表现与在原始数据集上训练的分类器相当,从而证明了我们压缩模型的有效性。这项工作不仅有助于减少计算资源的使用,还为受限环境下的高效数据处理铺平了道路,是数据高效机器学习的重要进展。
May, 2024
本研究提供了首个大规模的 Dataset Condensation 标准化基准,通过其生成的数据集全面反映了浓缩方法的通用性和有效性,并报告了许多有见地的发现,为未来的发展开辟了新的可能性。
Jul, 2022
通过设计一个综合的框架,实现了软分类感知匹配和调整学习速率的策略,从而在小型和大型数据集压缩上建立了基准,显著提高了模型训练效率。
Apr, 2024
将大型数据集通过生成模型进行压缩,通过内类和间类损失优化样本集合关系,提高优化速度和适应大型数据集的能力。
Sep, 2023
SRe$^2$L 是一种新的数据集压缩框架,可以在训练期间解耦模型和合成数据的双层优化,以处理各种规模的数据集、模型结构和图像分辨率,具有高分辨率训练、低训练成本和内存消耗,以及在任意评估网络结构下扩展的能力。
Jun, 2023
通过分布匹配的方法,我们提出了一种新的数据集精简方法,有效地减少了计算资源的使用,使得数据集精简能够应用于更大的数据集和模型。
Jul, 2023
通过数据规则特征,提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架,并开发出有效的优化技术,提高了训练数据信息的压缩质量。
May, 2022
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021