通过数据重要性外推在对抗训练中进行大规模数据集剪枝
本文提出了一种数据集剪枝方法,利用预测不确定性和训练动态来生成一个信息量丰富的子集,从而用人口可承受的计算成本代替大规模数据集进行深度模型训练,实验结果表明该方法表现优于现有技术,对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。
Jun, 2023
本文提出了一种新的替代训练视角,着重于设计在知识窃取过程中使用的数据分布,提出了多样化的数据生成模块来综合宽泛的分布的大规模数据,并引入对接近决策边界的数据进行对抗替换训练策略,两个模块的结合可以进一步提高替代模型和目标模型的一致性,大大提高了对抗攻击的有效性。
Apr, 2021
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量,具有与最佳监督度量相当的性能。研究表明,发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。
Jun, 2022
AdaPruner 是一种自适应数据集修剪框架,通过消除冗余的训练样本和减少计算和内存开销来提高模型性能和效率,可以在无需显式定义度量标准的情况下有效地修剪数据集并进行模型微调,展现了高可伸缩性和兼容性,并在修剪了训练数据的情况下显著提高了模型性能,同时节省了存储和计算成本。
Dec, 2023
针对现代机器学习模型易受到对人类不可察觉的攻击的问题,采用对抗培训来学习鲁棒模型的代价是在未被扰动的测试集上存在更高的泛化误差,此研究证明更多的数据可能会增加鲁棒分类器与标准分类器泛化误差的差距并提出了理论结果以判定何时和何种情况下添加更多数据才能缩小这种差距,此现象也出现在线性回归模型中。
Feb, 2020
在数据密集型模型的时代,精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题,并提出了一个公平感知的修剪方法,其在标准计算机视觉基准上展示了良好的性能,与现有算法形成鲜明对比。
Apr, 2024
深度学习在分类准确性方面已经能够超过人类在许多任务上的表现。然而,为了实现对抗性扰动的稳健性,最佳方法通常需要对更大的训练集进行对抗性训练,而这些训练集通常是通过生成模型(如扩散模型)进行增强的。在本文中,我们的主要目标是减少这些数据要求,同时实现相同或更好的准确性 - 稳健性权衡。我们聚焦于数据修剪,即根据模型分类边界(即边际)与训练样本之间的距离,移除一些训练样本。我们发现,现有方法在添加大量合成数据时剪枝低边际样本无法提高稳健性,并通过感知器学习任务解释了这种情况。此外,我们发现,通过修剪高边际样本以提高准确性会增加对抗性训练中错误标记扰动数据的有害影响,损害稳健性和准确性。因此,我们提出了一种名为 PUMA 的新数据修剪策略,使用 DeepFool 计算边际,并通过联合调整最低边际样本的训练攻击范数来修剪具有最高边际的训练样本,从而不损害性能。我们展示了 PUMA 可以在当前最先进的稳健性方法之上使用,并且能够显著提高模型性能,而现有的数据修剪策略无法做到这一点。PUMA 不仅在更少的数据情况下实现了类似的稳健性,还显著提高了模型的准确性,改善了性能权衡。
May, 2024
通过 Expansive Synthesis 模型,从有限样本中生成大规模、高保真度的数据集,提供解决数据稀缺问题的鲁棒方案,为机器学习应用中的数据提供了更强可用性的途径。
Jun, 2024