CAFE:通过特征对齐学习压缩数据集
本文提出了一种名为数据集精简的数据高效学习方法,该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络,并将此目标表述为深度神经网络权重梯度匹配问题,此技术在计算机视觉基准测试中表现出较高性能,并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。
Jun, 2020
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021
在实际的机器学习模型应用中,数据分布的变化常常导致训练数据和测试数据之间存在差异。在常见的多领域多类别设置中,随着类别和领域数量的增加,无法为每个领域 - 类别组合收集足够的训练数据。为了解决这一挑战,我们提出了一个名为 CG-Bench 的测试套件,该测试套件基于现有的真实图像数据集,发现了一种名为 Compositional Feature Alignment (CFA) 的两阶段模型微调技术,它可以促进预训练模型的组合特征学习。实验结果表明,CFA 在组合泛化方面优于常见的微调技术,证实了 CFA 在组合特征学习中的有效性。
Feb, 2024
本文提出了一种使用对比信号的数据集精简方法,被称为 Dataset Condensation with Contrastive signals (DCC),通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异,实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。
Feb, 2022
我们提出了一种新颖的特征归因方法 CAFE(冲突感知特征解释),它解决了现有方法中的三个限制:它们忽视冲突特征的影响,不考虑偏差项的影响,以及对基础激活函数的局部变化过于敏感。与其他方法不同,CAFE 在溯源神经元输入的影响上提供了防止效应被高估的保护措施,并单独跟踪输入特征和偏差的正负影响,从而增强了鲁棒性,并增加了表面冲突特征的能力。我们的实验证明,CAFE 能够更好地识别合成表格数据中的冲突特征,并在几个真实世界的表格数据集上具有最好的整体保真度,同时具有很高的计算效率。
Oct, 2023
本文提出了一种针对超参数搜索的新型超参数校准数据集压缩(HCDC)算法,通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集,实验证明该框架有效地维持了模型的验证性能排名,并加速了基于图像和图形的超参数 / 架构搜索任务。
May, 2024
从内部和外部视角揭示了当前基于分布匹配的方法在持久化训练和分布偏移方面的局限性,提出了一种新的基于双视图分布对齐的数据集简化方法 (DANCE),通过利用多个预训练模型来改进分布匹配,从而取得了状态的结果,并在保持与原始分布匹配相当的效率下实现了流行的性能。
Jun, 2024