压缩数据集下对抗训练的有效性研究

Feb, 2024

压缩数据集下对抗训练的有效性研究

Is Adversarial Training with Compressed Datasets Effective?

Tong Chen, Raghavendra Selvan

TL;DR通过在数据集中找到最小有限覆盖（MFC）的方法，提出了一种新的考虑鲁棒性的数据集压缩方法，用于提高数据集压缩效率和对抗性鲁棒性，并证明其在三个数据集上具有更好的鲁棒性和性能平衡。

Abstract

dataset condensation (DC) refers to the recent class of dataset compression methods that generate a smaller, synthetic, dataset from a larger dataset. This synthetic dataset retains the essential information of t

dataset condensation adversarial robustness dataset compression minimal finite covering performance trade-off

发现论文，激发创造

对比信号的数据集压缩

本文提出了一种使用对比信号的数据集精简方法，被称为 Dataset Condensation with Contrastive signals (DCC)，通过修改损失函数使得 DC 方法能够有效捕捉类之间的差异，实验结果表明 DCC 方法在细粒度图像分类和不断学习任务上表现出了优越性。

Feb, 2022

高效深度哈希检索：通过特征嵌入匹配压缩数据

本文提出了一种有效的压缩框架，该框架通过匹配合成集和真实集之间的特征嵌入来增强特征的多样性，并结合早期增强模型和多形态的策略，显著提高了性能和效率，比现有的基准方法都要优越。

May, 2023

免费提供隐私：数据集压缩如何帮助隐私？

本文首次发现，原本用于提高训练效率的数据集压缩技术 (dataset condensation, DC)，在数据隐私保护方面也是替代传统数据生成器的更好解决方案。我们提出了在 DC 中提供隐私保护，并理论上证明 DC 合成的 $m$ 个样本在参数分布上对网络的影响有限 ($O (m/n)$)，同时通过试验证明 DCsynthesized 数据的可视隐私和成员隐私。本文的创新之处在于：通过数据压缩实现了数据高效性与隐私保护的双赢。

Jun, 2022

多尺度数据集精简

本文提出多尺寸数据集精简（Multisize Dataset Condensation，MDC）方法，通过将 N 个精简过程压缩成一个过程，以获取具有多种尺寸的数据集，并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC 方法在 ConvNet、ResNet、DenseNet 等网络和 SVHN、CIFAR-10、CIFAR-100、ImageNet 等数据集上的效果。

Mar, 2024

揭示数据集精简的设计空间

通过设计一个综合的框架，实现了软分类感知匹配和调整学习速率的策略，从而在小型和大型数据集压缩上建立了基准，显著提高了模型训练效率。

Apr, 2024

数据集压缩是否是医疗数据共享的万能药方？

本研究研究了数据集压缩（DC）在 AI 研究中分享保健数据的前景，并取得了有希望的结果，数据集压缩通过压缩容量和加速模型收敛，既实现了正确的去隐私化，又保留了原始的深度学习功能，同时保护数据隐私并加速模型收敛，DC 为多项愿望的保健数据共享开启了新的大门。

May, 2023

DC-BENCH：数据集压缩基准测试

本研究提供了首个大规模的 Dataset Condensation 标准化基准，通过其生成的数据集全面反映了浓缩方法的通用性和有效性，并报告了许多有见地的发现，为未来的发展开辟了新的可能性。

Jul, 2022

数据集压缩与分布匹配

本研究提出了一种简单而有效的方法，通过在多个采样嵌入空间中匹配合成图像和原始训练图像的特征分布，综合减少了合成成本，同时实现了可比较或更好的性能，具有在实际大型数据集中应用以及在连续学习和神经结构搜索中表现出有希望的实际好处的潜力。

Oct, 2021

连接数据点：数据集筛选、差分隐私和对抗不确定性

我们的工作集中于通过与（$\epsilon$，$\delta$）- 差分隐私的敌对不确定性选择最优噪声 $\epsilon$ 以理解数据集浓缩的基本机制，提出敌对不确定性是实现最优噪声水平 $\epsilon$ 的最合适方法，并采用满意的噪声估计方案来保证高保真度数据和隐私。

Feb, 2024

具有对抗性鲁棒性的模型压缩：一个统一优化框架

通过 Adversarially Trained Model Compression (ATMC) 框架，将剪枝、因子分解和量化等现有压缩方法整合到一个受约束的优化公式中，实现了在保持模型准确性和鲁棒性的前提下，获得更好的模型尺寸和准确性折衷。

Feb, 2019