DREAM+:双向代表匹配的高效数据集精炼
采用高效的数据集提炼技术 (DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
Sep, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
通过 DreamSampler 框架,通过对正则化潜在优化的透镜,整合了逆向采样和分数蒸馏两种不同方法,实现了对图像编辑和重建的指导,从而展示了与现有方法相比的竞争性性能和新的应用。
Mar, 2024
用于大规模真实数据集的数据集压缩方法 RDED 能够在短短 7 分钟内将完整的 ImageNet-1K 压缩为每类只有 10 张图像的小型数据集,并在单个 RTX-4090 GPU 上以 42% 的 Top-1 精度实现了显著的性能提升(而目前最先进方法仅达到 21% 的精度,且需要 6 小时)。
Dec, 2023
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021
我们提出了一种新的医学图像数据集精华方法,通过设计新的渐进轨迹匹配策略提高了医学图像数据集精华的训练稳定性,并通过动态消除不同图像之间的重叠来改善合成数据集的多样性和最终性能,进而在各种模态和配置上建立了一个新的医学图像数据集精华基准,实验证明我们提出的方法相比之前的最先进方法平均提高了 8.33%,当 ipc=2 时,提高了 11.7%。
Mar, 2024
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情况下,相比最先进的精炼技术,提高了最高 4.8 个百分点和 4.2 个百分点的性能。
Mar, 2024