May, 2024

PUMA:基于边缘的数据修剪

TL;DR深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而,为了实现对抗性扰动的稳健性,最佳方法通常需要对更大的训练集进行对抗性训练,而这些训练集通常是通过生成模型(如扩散模型)进行增强的。在本文中,我们的主要目标是减少这些数据要求,同时实现相同或更好的准确性 - 稳健性权衡。我们聚焦于数据修剪,即根据模型分类边界(即边际)与训练样本之间的距离,移除一些训练样本。我们发现,现有方法在添加大量合成数据时剪枝低边际样本无法提高稳健性,并通过感知器学习任务解释了这种情况。此外,我们发现,通过修剪高边际样本以提高准确性会增加对抗性训练中错误标记扰动数据的有害影响,损害稳健性和准确性。因此,我们提出了一种名为 PUMA 的新数据修剪策略,使用 DeepFool 计算边际,并通过联合调整最低边际样本的训练攻击范数来修剪具有最高边际的训练样本,从而不损害性能。我们展示了 PUMA 可以在当前最先进的稳健性方法之上使用,并且能够显著提高模型性能,而现有的数据修剪策略无法做到这一点。PUMA 不仅在更少的数据情况下实现了类似的稳健性,还显著提高了模型的准确性,改善了性能权衡。