DREAM+:双向代表匹配的高效数据集精炼
本文研究了一种名为MTT的数据集压缩方法,提出了一种内存和时间更高效的轨迹匹配算法TESLA,并且发现对于更大的数据集,为合成图像分配软标签至关重要。TESLA在ImageNet-1K数据集上实现了27.9%的测试准确率,要比之前的方法高出18.2%的较大优势。
Nov, 2022
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用100个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
Aug, 2023
采用高效的数据集提炼技术(DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
Sep, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的GPU内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
通过引入DMD2技术,将Distribution Matching Distillation应用于一步图像生成,通过GAN loss以及多步采样等技巧的改进,在降低推理成本的情况下,取得了在图像生成任务中新的最优结果。
May, 2024
通过在当前方法和实际数据集上进行广泛分析,我们提供了两个重要的事实,即实际图像数据集中出现在一侧的目标部分很可能在另一幅图像的相反一侧出现,这被称为双边等价性;为了解决此问题,我们引入了一种名为FYI的技术,它能够将真实图像的丰富语义融入到合成图像中,并通过水平翻转技术减轻双边等价性的影响,从而捕捉更多目标的细节。
Jul, 2024
本研究针对数据集蒸馏(DD)中缺乏理论探索的问题,提出了一种样本难度的理解方法。通过对样本难度的实证分析,发现优先合成原始数据集中较易样本可以显著提高蒸馏数据集的质量,并引入了样本难度修正(SDC)方法,可作为现有技术的插件应用。实验结果显示,SDC在七种蒸馏方法和六个数据集上均能生成更高质量的蒸馏数据集。
Aug, 2024
本研究解决了深度学习在图像任务中面临的数据存储和计算成本过高的问题。通过训练一个类条件潜在扩散模型,生成可读的合成图像,显著提升了数据集性能并减少了蒸馏时间。该方法在ECCV 2024的首个数据集蒸馏挑战中,CIFAR100和TinyImageNet数据集上取得了第一名的佳绩。
Sep, 2024
本研究针对大规模数据集蒸馏的高内存和时间复杂度问题,提出了一种名为“Teddy”的新框架,利用泰勒近似来提升效率。关键发现是,通过使用预缓存的弱模型池,而非每次迭代训练新模型,能够显著提高运行效率和性能,特别是在处理大规模数据集时,实验表明效率和性能均达到了当前最先进的水平。
Oct, 2024