本文提出了一种基于数据集精简的医疗数据共享方法,实验结果表明,即使使用匿名的胸部 X 光图像,我们的方法也可以实现高的检测性能。
Sep, 2022
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
Oct, 2023
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情况下,相比最先进的精炼技术,提高了最高 4.8 个百分点和 4.2 个百分点的性能。
Mar, 2024
我们提出了一种新的医学图像数据集精华方法,通过设计新的渐进轨迹匹配策略提高了医学图像数据集精华的训练稳定性,并通过动态消除不同图像之间的重叠来改善合成数据集的多样性和最终性能,进而在各种模态和配置上建立了一个新的医学图像数据集精华基准,实验证明我们提出的方法相比之前的最先进方法平均提高了 8.33%,当 ipc=2 时,提高了 11.7%。
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。
Jun, 2024
本文中,我们探讨了数据集蒸馏的另一种形式,即基于固定模型的数据集蒸馏,通过使用少量的数据点近似原始数据的训练模型,此方法相对于其他方法具有优势,并在多个数据集上进行了实验证明
Nov, 2018
通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响,本文提出了一个评估这一技术的大规模基准测评框架。
May, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
引入隐私蒸馏框架让文本到图像生成模型传授另一个模型而不暴露可识别数据,可以有效地减少再识别风险,同时维持下游性能。
Jun, 2023