改进数据集简化中的伪相关性
本研究提供了首个大规模的 Dataset Condensation 标准化基准,通过其生成的数据集全面反映了浓缩方法的通用性和有效性,并报告了许多有见地的发现,为未来的发展开辟了新的可能性。
Jul, 2022
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021
本文提出了一种使用对比信号的数据集精简方法,被称为 Dataset Condensation with Contrastive signals (DCC),通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异,实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。
Feb, 2022
本文提出了一种名为数据集精简的数据高效学习方法,该方法从大量数据中学习到一组信息丰富的合成样本来训练深度神经网络,并将此目标表述为深度神经网络权重梯度匹配问题,此技术在计算机视觉基准测试中表现出较高性能,并且在有限的内存和计算宝贵的情况下实现了不俗的成绩。
Jun, 2020
本文提出了一种针对超参数搜索的新型超参数校准数据集压缩(HCDC)算法,通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集,实验证明该框架有效地维持了模型的验证性能排名,并加速了基于图像和图形的超参数 / 架构搜索任务。
May, 2024
本文提出多尺寸数据集精简(Multisize Dataset Condensation,MDC)方法,通过将 N 个精简过程压缩成一个过程,以获取具有多种尺寸的数据集,并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。
Mar, 2024