本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法,并将数据子集选择的思想与数据集精馏相结合,通过相对贡献的实例的概念优化性能。
Jul, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
本文提出了一种基于优化算法的 Flat Trajectory Distillation(FTD)方法来缓解 distortion 和 subsequent evaluation 之间的累积轨迹误差,实验证明该方法可提高梯度匹配方法的性能,并适用于神经架构搜索。
Nov, 2022
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
本研究提供了一种新的算法,使用合成数据集优化网络,可以快速、高效地将神经网络训练到与真实数据相似的状态,从而实现数据集精简化处理,并能够处理高分辨率视觉数据。
Mar, 2022
使用模型池方法进行数据蒸馏,结合知识蒸馏技术进行测试,从而创造出小规模合成数据集,在性能上表现优于现有方法。
Feb, 2024
本文提出了一种数据集蒸馏的方法,通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率,并提出代表性初始化、均衡内环损失和权重摄动等增强策略,以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明,该方法在各种规模、大小和分辨率的数据集上明显优于之前的方法。
用于大规模真实数据集的数据集压缩方法 RDED 能够在短短 7 分钟内将完整的 ImageNet-1K 压缩为每类只有 10 张图像的小型数据集,并在单个 RTX-4090 GPU 上以 42% 的 Top-1 精度实现了显著的性能提升(而目前最先进方法仅达到 21% 的精度,且需要 6 小时)。
该研究以实际数据集为基础,探索一种简单的数据精炼技术在原型软标签精炼中的潜力,通过集成优化步骤以提高分类准确性,并对不平衡度不同的数据集进行实验验证,发现该方法在数据精炼和数据增强方面的能力。
Mar, 2024