DC-BENCH：数据集压缩基准测试

Jul, 2022

DC-BENCH: Dataset Condensation Benchmark

Justin Cui, Ruochen Wang, Si Si, Cho-Jui Hsieh

TL;DR本研究提供了首个大规模的 Dataset Condensation 标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Abstract

dataset condensation is a newly emerging technique aiming at learning a tiny dataset that captures the rich information encoded in the original dataset. As the size of datasets contemporary machine learning model

dataset condensation machine learning network training data storage benchmark

发现论文，激发创造

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

改进的分布匹配用于数据集浓缩

通过分布匹配的方法，我们提出了一种新的数据集精简方法，有效地减少了计算资源的使用，使得数据集精简能够应用于更大的数据集和模型。

Jul, 2023

通过有效的合成数据参数化压缩数据集

通过数据规则特征，提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架，并开发出有效的优化技术，提高了训练数据信息的压缩质量。

May, 2022

使用梯度匹配的数据集压缩

本文提出了一种名为数据集精简的数据高效学习方法，该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络，并将此目标表述为深度神经网络权重梯度匹配问题，此技术在计算机视觉基准测试中表现出较高性能，并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。

Jun, 2020

加速超参数搜索的数据集压缩

本文提出了一种针对超参数搜索的新型超参数校准数据集压缩（HCDC）算法，通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集，实验证明该框架有效地维持了模型的验证性能排名，并加速了基于图像和图形的超参数 / 架构搜索任务。

May, 2024

通过生成模型进行数据集简化

将大型数据集通过生成模型进行压缩，通过内类和间类损失优化样本集合关系，提高优化速度和适应大型数据集的能力。

Sep, 2023

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

GCondenser: 图谱压缩基准测试

大规模图的压缩是一个重要的研究领域，本文提出了第一个大规模图压缩基准，名为 GCondenser，为综合评估和比较主流的 GC 方法提供了标准化的框架和评估程序，并展示了现有方法的有效性。

May, 2024

GC-Bench: 图形凝聚的开放和统一基准

我们研究了图缩减的性能，并通过开发一个综合的图缩减基准测试库 (GC-Bench) 来评估 12 种最新的图缩减算法在不同场景下的效果、可迁移性和复杂性。

Jun, 2024

高效深度哈希检索：通过特征嵌入匹配压缩数据

本文提出了一种有效的压缩框架，该框架通过匹配合成集和真实集之间的特征嵌入来增强特征的多样性，并结合早期增强模型和多形态的策略，显著提高了性能和效率，比现有的基准方法都要优越。

May, 2023