本文提出了一种使用对比信号的数据集精简方法,被称为 Dataset Condensation with Contrastive signals (DCC),通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异,实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。
Feb, 2022
本文提出了一种有效的压缩框架,该框架通过匹配合成集和真实集之间的特征嵌入来增强特征的多样性,并结合早期增强模型和多形态的策略,显著提高了性能和效率,比现有的基准方法都要优越。
May, 2023
本文首次发现,原本用于提高训练效率的数据集压缩技术 (dataset condensation, DC),在数据隐私保护方面也是替代传统数据生成器的更好解决方案。我们提出了在 DC 中提供隐私保护,并理论上证明 DC 合成的 $m$ 个样本在参数分布上对网络的影响有限 ($O (m/n)$),同时通过试验证明 DCsynthesized 数据的可视隐私和成员隐私。本文的创新之处在于:通过数据压缩实现了数据高效性与隐私保护的双赢。
Jun, 2022
本文提出多尺寸数据集精简(Multisize Dataset Condensation,MDC)方法,通过将 N 个精简过程压缩成一个过程,以获取具有多种尺寸的数据集,并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。
Mar, 2024
通过设计一个综合的框架,实现了软分类感知匹配和调整学习速率的策略,从而在小型和大型数据集压缩上建立了基准,显著提高了模型训练效率。
Apr, 2024
本研究研究了数据集压缩(DC)在 AI 研究中分享保健数据的前景,并取得了有希望的结果,数据集压缩通过压缩容量和加速模型收敛,既实现了正确的去隐私化,又保留了原始的深度学习功能,同时保护数据隐私并加速模型收敛,DC 为多项愿望的保健数据共享开启了新的大门。
本研究提供了首个大规模的 Dataset Condensation 标准化基准,通过其生成的数据集全面反映了浓缩方法的通用性和有效性,并报告了许多有见地的发现,为未来的发展开辟了新的可能性。
Jul, 2022
本研究提出了一种简单而有效的方法,通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布,综合减少了合成成本,同时实现了可比较或更好的性能,具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。
Oct, 2021
我们的工作集中于通过与($\epsilon$,$\delta$)- 差分隐私的敌对不确定性选择最优噪声 $\epsilon$ 以理解数据集浓缩的基本机制,提出敌对不确定性是实现最优噪声水平 $\epsilon$ 的最合适方法,并采用满意的噪声估计方案来保证高保真度数据和隐私。
Feb, 2024
通过 Adversarially Trained Model Compression (ATMC) 框架,将剪枝、因子分解和量化等现有压缩方法整合到一个受约束的优化公式中,实现了在保持模型准确性和鲁棒性的前提下,获得更好的模型尺寸和准确性折衷。
Feb, 2019