通过数据重要性外推在对抗训练中进行大规模数据集剪枝

ICMLJun, 2024

通过数据重要性外推在对抗训练中进行大规模数据集剪枝

Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation

Björn Nieth, Thomas Altstidl, Leo Schwinn, Björn Eskofier

TL;DR基于从小数据集外推数据重要性分数的数据修剪策略，在保持鲁棒性的同时有效地减小数据集大小。

Abstract

Their vulnerability to small, imperceptible attacks limits the adoption of deep learning models to real-world systems. adversarial training has proven to be one of the most promising strategies against these atta

vulnerability adversarial training data-centric approaches data pruning robustness

发现论文，激发创造

越少越好：数据修剪加速对抗训练

提出基于数据修剪的针对深度神经网络的对抗训练，通过减少数据层面的冗余来提高计算效率，实现和未修剪模型相似或更高的鲁棒性和准确性。

Feb, 2023

动态不确定性下的大规模数据集修剪

本文提出了一种数据集剪枝方法，利用预测不确定性和训练动态来生成一个信息量丰富的子集，从而用人口可承受的计算成本代替大规模数据集进行深度模型训练，实验结果表明该方法表现优于现有技术，对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。

Jun, 2023

深入数据：有效替代式训练针对黑盒攻击

本文提出了一种新的替代训练视角，着重于设计在知识窃取过程中使用的数据分布，提出了多样化的数据生成模块来综合宽泛的分布的大规模数据，并引入对接近决策边界的数据进行对抗替换训练策略，两个模块的结合可以进一步提高替代模型和目标模型的一致性，大大提高了对抗攻击的有效性。

Apr, 2021

超越神经网络规模定律：通过数据修剪击败幂律缩放

通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计，可以实现更好的误差缩放。本文进行了实证研究，并测试了十种不同的数据剪枝度量，发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量，具有与最佳监督度量相当的性能。研究表明，发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。

Jun, 2022

数据精简框架：提升模型性能和效率的端到端自适应数据精简

AdaPruner 是一种自适应数据集修剪框架，通过消除冗余的训练样本和减少计算和内存开销来提高模型性能和效率，可以在无需显式定义度量标准的情况下有效地修剪数据集并进行模型微调，展现了高可伸缩性和兼容性，并在修剪了训练数据的情况下显著提高了模型性能，同时节省了存储和计算成本。

Dec, 2023

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

更多数据可能扩大对抗性鲁棒模型和标准模型之间的泛化差距

针对现代机器学习模型易受到对人类不可察觉的攻击的问题，采用对抗培训来学习鲁棒模型的代价是在未被扰动的测试集上存在更高的泛化误差，此研究证明更多的数据可能会增加鲁棒分类器与标准分类器泛化误差的差距并提出了理论结果以判定何时和何种情况下添加更多数据才能缩小这种差距，此现象也出现在线性回归模型中。

Feb, 2020

强健数据修剪：揭示和克服隐性偏见

在数据密集型模型的时代，精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题，并提出了一个公平感知的修剪方法，其在标准计算机视觉基准上展示了良好的性能，与现有算法形成鲜明对比。

Apr, 2024

PUMA：基于边缘的数据修剪

深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而，为了实现对抗性扰动的稳健性，最佳方法通常需要对更大的训练集进行对抗性训练，而这些训练集通常是通过生成模型（如扩散模型）进行增强的。在本文中，我们的主要目标是减少这些数据要求，同时实现相同或更好的准确性 - 稳健性权衡。我们聚焦于数据修剪，即根据模型分类边界（即边际）与训练样本之间的距离，移除一些训练样本。我们发现，现有方法在添加大量合成数据时剪枝低边际样本无法提高稳健性，并通过感知器学习任务解释了这种情况。此外，我们发现，通过修剪高边际样本以提高准确性会增加对抗性训练中错误标记扰动数据的有害影响，损害稳健性和准确性。因此，我们提出了一种名为 PUMA 的新数据修剪策略，使用 DeepFool 计算边际，并通过联合调整最低边际样本的训练攻击范数来修剪具有最高边际的训练样本，从而不损害性能。我们展示了 PUMA 可以在当前最先进的稳健性方法之上使用，并且能够显著提高模型性能，而现有的数据修剪策略无法做到这一点。PUMA 不仅在更少的数据情况下实现了类似的稳健性，还显著提高了模型的准确性，改善了性能权衡。

May, 2024

扩展合成：从有限样本生成大规模数据集

通过 Expansive Synthesis 模型，从有限样本中生成大规模、高保真度的数据集，提供解决数据稀缺问题的鲁棒方案，为机器学习应用中的数据提供了更强可用性的途径。

Jun, 2024