CAFE：通过特征对齐学习压缩数据集

CVPRMar, 2022

CAFE：通过特征对齐学习压缩数据集

CAFE: Learning to Condense Dataset by Aligning Features

Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Shuo Yang...

TL;DR本文提出了一种名为 CAFE 的新方法来压缩数据集并 align 真实数据和合成数据的特征，以防止梯度偏差。我们的方案通过动态双级优化和适应性参数更新以防止过度拟合，并通过广泛实验验证了其有效性。

Abstract

dataset condensation aims at reducing the network training effort through condensing a cumbersome training set into a compact synthetic one. State-of-the-art approaches largely rely on learning the →

dataset condensation network training synthetic data gradient-based methods cafe

发现论文，激发创造

使用梯度匹配的数据集压缩

本文提出了一种名为数据集精简的数据高效学习方法，该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络，并将此目标表述为深度神经网络权重梯度匹配问题，此技术在计算机视觉基准测试中表现出较高性能，并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。

Jun, 2020

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

通过组合特征对齐增强组合泛化能力

在实际的机器学习模型应用中，数据分布的变化常常导致训练数据和测试数据之间存在差异。在常见的多领域多类别设置中，随着类别和领域数量的增加，无法为每个领域 - 类别组合收集足够的训练数据。为了解决这一挑战，我们提出了一个名为 CG-Bench 的测试套件，该测试套件基于现有的真实图像数据集，发现了一种名为 Compositional Feature Alignment (CFA) 的两阶段模型微调技术，它可以促进预训练模型的组合特征学习。实验结果表明，CFA 在组合泛化方面优于常见的微调技术，证实了 CFA 在组合特征学习中的有效性。

Feb, 2024

通过有效的合成数据参数化压缩数据集

通过数据规则特征，提出一种生成多种合成数据的紧凑型训练数据的新型压缩框架，并开发出有效的优化技术，提高了训练数据信息的压缩质量。

May, 2022

对比信号的数据集压缩

本文提出了一种使用对比信号的数据集精简方法，被称为 Dataset Condensation with Contrastive signals (DCC)，通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异，实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。

Feb, 2022

通过一步梯度匹配压缩图

本文提出了一种基于概率图模型和单步梯度匹配的高效数据集压缩方法，能够在保持性能的前提下将数据集大小缩减 90%。

Jun, 2022

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

冲突感知特征解释

我们提出了一种新颖的特征归因方法 CAFE（冲突感知特征解释），它解决了现有方法中的三个限制：它们忽视冲突特征的影响，不考虑偏差项的影响，以及对基础激活函数的局部变化过于敏感。与其他方法不同，CAFE 在溯源神经元输入的影响上提供了防止效应被高估的保护措施，并单独跟踪输入特征和偏差的正负影响，从而增强了鲁棒性，并增加了表面冲突特征的能力。我们的实验证明，CAFE 能够更好地识别合成表格数据中的冲突特征，并在几个真实世界的表格数据集上具有最好的整体保真度，同时具有很高的计算效率。

Oct, 2023

加速超参数搜索的数据集压缩

本文提出了一种针对超参数搜索的新型超参数校准数据集压缩（HCDC）算法，通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集，实验证明该框架有效地维持了模型的验证性能排名，并加速了基于图像和图形的超参数 / 架构搜索任务。

May, 2024

DANCE: 双视图数据集收缩的双视图分布对齐

从内部和外部视角揭示了当前基于分布匹配的方法在持久化训练和分布偏移方面的局限性，提出了一种新的基于双视图分布对齐的数据集简化方法 (DANCE)，通过利用多个预训练模型来改进分布匹配，从而取得了状态的结果，并在保持与原始分布匹配相当的效率下实现了流行的性能。

Jun, 2024