通过软标签同时提取图像和标签以减少数据集的大小,拓展算法至可用于文本数据,对于多个数据集和分类任务提高了2-4%的准确率。
Oct, 2019
针对数据集蒸馏的问题,我们提出了用合成标签来训练模型,比基于图像的方法更为有效;我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略,这种新算法可以提高模型的性能,并且可兼容各个优化器及不同的神经结构。我们的研究发现,标签蒸馏还能夸数据集应用,例如只通过合成标签的英文字母来训练以学习日文字母识别。
Jun, 2020
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用100个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
Aug, 2023
采用高效的数据集提炼技术(DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
Sep, 2023
通过双向代表性匹配的数据集提炼策略(DREAM+),选择代表性的原始图像进行匹配,并且在不影响性能的情况下,显著减少了数据集提炼迭代的次数。
Oct, 2023
使用课程数据增强方法,在大规模的ImageNet-1K和ImageNet-21K数据集上实现了最佳准确度,并在准确度上超越了目前的最先进模型。
Nov, 2023
用于大规模真实数据集的数据集压缩方法RDED能够在短短7分钟内将完整的ImageNet-1K压缩为每类只有10张图像的小型数据集,并在单个RTX-4090 GPU上以42%的Top-1精度实现了显著的性能提升(而目前最先进方法仅达到21%的精度,且需要6小时)。
Dec, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
本文提出了一种新的数据集蒸馏方法,该方法在将大型数据集蒸馏为生成模型时考虑了全局结构和局部细节的平衡。
Apr, 2024
本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。
Aug, 2024