基于难度对齐轨迹匹配的无损数据集蒸馏
本研究提供了一种新的算法,使用合成数据集优化网络,可以快速、高效地将神经网络训练到与真实数据相似的状态,从而实现数据集精简化处理,并能够处理高分辨率视觉数据。
Mar, 2022
本文研究了一种名为MTT的数据集压缩方法,提出了一种内存和时间更高效的轨迹匹配算法TESLA,并且发现对于更大的数据集,为合成图像分配软标签至关重要。TESLA在ImageNet-1K数据集上实现了27.9%的测试准确率,要比之前的方法高出18.2%的较大优势。
Nov, 2022
本文提出了一种基于优化算法的Flat Trajectory Distillation(FTD)方法来缓解 distortion 和 subsequent evaluation 之间的累积轨迹误差,实验证明该方法可提高梯度匹配方法的性能,并适用于神经架构搜索。
Nov, 2022
采用高效的数据集提炼技术(DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
Sep, 2023
本文提出了一种数据集蒸馏的方法,通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率,并提出代表性初始化、均衡内环损失和权重摄动等增强策略,以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明,该方法在各种规模、大小和分辨率的数据集上明显优于之前的方法。
Oct, 2023
我们提出了一种新的医学图像数据集精华方法,通过设计新的渐进轨迹匹配策略提高了医学图像数据集精华的训练稳定性,并通过动态消除不同图像之间的重叠来改善合成数据集的多样性和最终性能,进而在各种模态和配置上建立了一个新的医学图像数据集精华基准,实验证明我们提出的方法相比之前的最先进方法平均提高了8.33%,当 ipc=2 时,提高了11.7%。
Mar, 2024
通过对目标函数进行简单的转换和利用 MCT (Matching Convexified Trajectory)方法,研究论文发现 MTT 方法存在的三个主要问题:Stochastic Gradient Descent(SGD)生成的专家轨迹不稳定,提取过程的收敛速度慢以及专家轨迹的存储消耗高,并提出了一种能够快速且稳定地引导学生网络收敛的方法。实验结果显示,MCT 方法在三个公共数据集上相较于传统的 MTT 方法具有优越性。
Jun, 2024
本研究解决了数据集蒸馏中存在的对齐信息失真问题,提出了一种新的方法“优先考虑对齐”(PAD),通过优化信息提取和嵌入的过程,提高了蒸馏数据集的质量。研究发现,该方法在多个基准测试中显著提升了性能,达到最先进的水平。
Aug, 2024
本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。
Aug, 2024
本研究解决了数据集蒸馏中标签不一致性对模型性能的影响。提出的修改版难度对齐轨迹匹配方法通过去除软标签和缩小匹配范围,显著提升了合成数据集在模型训练中的有效性。最终在CIFAR-100和Tiny ImageNet数据集上的表现名列前茅,展示了该方法在数据集蒸馏领域的潜在影响。
Oct, 2024