组分布稳健数据集蒸馏及风险最小化
研究提出了一种新方法,通过在蒸馏过程中加入曲率正则化,使得在生成的数据集上训练的模型在保持高准确性的同时获得更好的敌对鲁棒性,而且计算开销更小。实验证明该方法在准确性和鲁棒性方面都优于标准的敌对训练,并能生成经受住各种敌对攻击的鲁棒蒸馏数据集。
Mar, 2024
神经网络在从特定任务的数据集中进行训练时学到了什么?数据集精炼是合成这种知识的中心思想,我们提出了分布式数据集精炼(D3)方法,使用最小的充分类别统计信息,与解码器一起使数据集转化为一种更节省内存的分布式表示方法。通过对数据集进行分割、并行使用子任务专家进行精炼然后重新聚合的方式,我们提出了联邦精炼方法,以扩大学习这些表示的过程。我们对其进行全面评估,并在 TinyImageNet 和 ImageNet-1K 数据集上展示了其在三维度度量上达到了最先进结果。特别地,在每类存储预算为 2 张图片的情况下,我们在 ImageNet-1K 数据集上的结果优于先前的方法 6.9%。
Mar, 2024
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
利用 Wasserstein 距离进行数据集简化,通过嵌入合成数据到预训练分类模型的特征空间进行分布匹配,实现了数据集简化的新的最先进性能。
Nov, 2023
利用数据集正规化技术 (Dataset Distillation, DD) 生成小规模的合成数据集,探究数据集偏倚对 DD 性能的影响并提出应对方法,实验证明原始数据集中的偏倚显著影响合成数据集的性能,突出了在 DD 过程中识别和减轻偏倚的必要性。
Mar, 2024
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
通过同时考虑数据集精简和外部样本检测,我们提出了一种称为可信数据集精简的新范例,通过提取内部样本和异常样本,精炼的数据集可以训练能够进行内部分类和外部样本检测的模型。
Jul, 2023
本研究旨在通过生成高质量的人工合成数据集,从而提高数据集的效率,我们提出了两种模型增强技术,使用早期模型和权重扰动学习具有显著减少培训成本的信息化合成集。实验结果表明,我们的方法达到了最先进的基线方法的速度提升达到 20 倍,并且性能相当。
Dec, 2022