通过引导互补熵来提高对抗性鲁棒性
本论文提出一种新颖的训练方法和阈值测试策略,以实现对恶意制造的对抗样本的鲁棒检测。在训练中,我们提出了最小化反交叉熵(RCE)的方法,以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中,我们提出了使用阈值策略作为检测器,以过滤出对抗样本,以实现可靠预测,我们的方法使用标准算法简单实现,与常见的交叉熵最小化相比,几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法,并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。
Jun, 2017
该研究探讨了在保证标准准确率的前提下提高对抗性鲁棒性的方法,介绍了 Max-Mahalanobis 中心损失函数,强制在特征空间中诱导高密度区域,以使学习到的特征点更加紧凑和有序,从而提高对抗性防御水平。
May, 2019
本文提出了一种 Guided Interpolation Framework (GIF)框架,该框架利用前一轮 epoch 的 meta 信息来引导数据插值,达到提高可攻击性数据的比例从而增强鲁棒性、减少模型各类之间的线性关系、鼓励模型在每个类别簇中不变地进行预测的目的。实验证明,GIF 确实可以在各种 Adversarial Training 方法和各种数据集上增强对抗鲁棒性。
Feb, 2021
该研究通过开发一种统一的概率框架 CEM,提供了关于 Adversarial Training(AT)的概率描述,并将其扩展到了无监督学习场景,提出了一种有原则的方法来开发对抗性学习和采样方法,实验表明,我们得到的采样方法提高了监督和无监督学习的样本质量。
Mar, 2022
本文提出了一种名为 Symmetric cross entropy Learning 的深度神经网络学习方法,通过将 Cross Entropy 与 Reverse Cross Entropy 相结合,解决了在标签噪声存在下 CE 的过拟合与欠拟合问题,并在多个基准数据集和真实世界数据集实验中表现出优于其他现有方法的效果。
Aug, 2019
本研究通过引入已训练的干净模型的分类边界来指导对抗训练,约束对抗性模型的 logits 与自然数据下的干净模型的 logits 相似,从而提高了模型的鲁棒性和自然数据的准确性。实验证明,该方法在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上具有新的最先进的鲁棒性,无需额外的真实或合成数据。
Nov, 2020
本文提出了 Guided Adversarial Margin Attack (GAMA),该攻击能够更有效地指导对抗样本的生成;同时,使用所提出的松弛项进行对抗训练,可以提高单步防御的效果,从而达到了最先进的性能水平。
Nov, 2020
使用最先进的扩散模型生成额外的训练数据可以极大地提高敌对训练的鲁棒性,该方法同样可以明显提高确定性认证防御的鲁棒性,我们还提供了一些建议来扩展认证训练方法的鲁棒性。
May, 2023
我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例:语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上,鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外,当直接在反事实例上进行评估时,鲁棒模型的性能非常差,因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明,非鲁棒和语义特征之间存在显著的重叠,与普遍的非鲁棒特征不可解释的假设相反。
Apr, 2024
最近的研究表明,深度神经网络对于对抗样本存在漏洞。已经提出了许多防御方法以提高模型的鲁棒性,其中对抗训练最为成功。本文重新审视了鲁棒过拟合现象。我们认为,对抗训练过程中产生的自信模型可能是潜在的原因,通过实证观察支持,具有更好鲁棒泛化能力的模型对于对抗样本的预测标签往往具有更均匀的分布。基于对抗确立的定义,我们在对抗训练框架中引入了一个额外的梯度步骤,以寻找能够生成置信度较低的对抗扰动输入的模型,进一步提高鲁棒泛化。我们的方法具有普适性,可以轻松与其他对抗训练方法的变体结合。在图像基准实验上进行的大量实验证明了我们的方法有效地减轻了鲁棒过拟合,并能够产生鲁棒性持续提升的模型。
Oct, 2023