PUMA：基于边缘的数据修剪

May, 2024

PUMA: margin-based data pruning

Javier Maroto, Pascal Frossard

TL;DR深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而，为了实现对抗性扰动的稳健性，最佳方法通常需要对更大的训练集进行对抗性训练，而这些训练集通常是通过生成模型（如扩散模型）进行增强的。在本文中，我们的主要目标是减少这些数据要求，同时实现相同或更好的准确性 - 稳健性权衡。我们聚焦于数据修剪，即根据模型分类边界（即边际）与训练样本之间的距离，移除一些训练样本。我们发现，现有方法在添加大量合成数据时剪枝低边际样本无法提高稳健性，并通过感知器学习任务解释了这种情况。此外，我们发现，通过修剪高边际样本以提高准确性会增加对抗性训练中错误标记扰动数据的有害影响，损害稳健性和准确性。因此，我们提出了一种名为 PUMA 的新数据修剪策略，使用 DeepFool 计算边际，并通过联合调整最低边际样本的训练攻击范数来修剪具有最高边际的训练样本，从而不损害性能。我们展示了 PUMA 可以在当前最先进的稳健性方法之上使用，并且能够显著提高模型性能，而现有的数据修剪策略无法做到这一点。PUMA 不仅在更少的数据情况下实现了类似的稳健性，还显著提高了模型的准确性，改善了性能权衡。

Abstract

deep learning has been able to outperform humans in terms of classification accuracy in many tasks. However, to achieve robustness to adversarial perturbations, the best methodologies require to perform adversarial trai

deep learning adversarial training data pruning margin puma

发现论文，激发创造

强健数据修剪：揭示和克服隐性偏见

在数据密集型模型的时代，精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题，并提出了一个公平感知的修剪方法，其在标准计算机视觉基准上展示了良好的性能，与现有算法形成鲜明对比。

Apr, 2024

通过数据重要性外推在对抗训练中进行大规模数据集剪枝

基于从小数据集外推数据重要性分数的数据修剪策略，在保持鲁棒性的同时有效地减小数据集大小。

Jun, 2024

利用边际排名下的面积识别错误标记的数据

文章提出了一种新方法，使用区域下的边缘（AUM）统计量识别训练集中的错误标记数据，并通过添加一个带有特定错误标记样本的额外类来学习 AUM 上限以分离标记错误的数据。在 WebVision50 分类任务中，该方法去除了 17％的训练数据，产生了 1.6％（绝对）的测试误差改进，在 CIFAR100 上删除 13％的数据可导致 1.2％的误差下降。

Jan, 2020

数据精简框架：提升模型性能和效率的端到端自适应数据精简

AdaPruner 是一种自适应数据集修剪框架，通过消除冗余的训练样本和减少计算和内存开销来提高模型性能和效率，可以在无需显式定义度量标准的情况下有效地修剪数据集并进行模型微调，展现了高可伸缩性和兼容性，并在修剪了训练数据的情况下显著提高了模型性能，同时节省了存储和计算成本。

Dec, 2023

越少越好：数据修剪加速对抗训练

提出基于数据修剪的针对深度神经网络的对抗训练，通过减少数据层面的冗余来提高计算效率，实现和未修剪模型相似或更高的鲁棒性和准确性。

Feb, 2023

基于动态数据过滤的训练可能不适用于自然语言处理数据集

探讨了使用 Area Under the Margin（AUM）度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本，表明该方法可以滤除 NLP 数据集中的错误标记，但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。

Sep, 2021

基于深度学习的无线分类器的对抗鲁棒性研究

为应对联合问题，本研究提出两种优化的深度学习模型通过知识蒸馏和网络修剪，并引入计算高效的对抗训练过程来提高模型的鲁棒性，实验结果表明这两种优化和对抗训练模型在白盒攻击下比标准模型更具鲁棒性，在干净样本上也能达到更高的准确率，从而为边缘应用的深度学习解决方案的可靠性提供有效支持。

Apr, 2024

无需对抗样本修剪对抗鲁棒神经网络

该研究通过运用自蒸馏和信息瓶颈方案，提出新的神经网络剪枝框架，使其可以在保持鲁棒性的情况下压缩其大小并提高训练效率。

Oct, 2022

通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性

该研究提出了一种基于决策边界的数据增强策略，利用预训练语言模型来提高鲁棒性；该技术首先将潜在特征接近决策边界，然后通过重构生成一个带有软标签的模糊版本，并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能，同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。

Mar, 2024

参数高效的 Diff 剪枝用于偏差缓解

介绍了一种模块化的架构，应用 DiffPruning 和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022