对抗性对数配对
评估 “对抗性逻辑对齐” 的鲁棒性,发现经过训练的网络在该防御模型下仅达到 0.6%的准确性,探讨了攻击方法的方法论和结果,揭示了 ALP 易受到对抗攻击的原因。
Jul, 2018
通过研究,我们发现 Clean Logit Pairing (CLP) 和 Logit Squeezing (LSQ) 等方法仅仅增加了制造对抗样本的梯度优化难度并未真正提高分类器的对抗鲁棒性;我们提出的 Adversarial Logit Pairing (ALP) 方法可以在对抗训练的情况下提高分类器的对抗鲁棒性,但是这种提高远远低于之前所声明的。我们得出的结论是,模型对迭代 PGD 攻击的评估严重依赖所使用的参数,并可能导致关于模型鲁棒性的错误结论。
Oct, 2018
通过研究对抗训练提高分类器鲁棒性的机制,本研究表明这些机制可以有效地通过简单的正则化方法(包括标签平滑和对数挤压)及高斯噪声注入来模仿,并且在不使用对抗性示例的情况下,我们能够达到强大的对抗性鲁棒性 -- 通常超过对抗性训练所能达到的水平。
Oct, 2019
在这项研究中,从理论的角度分析了成功的对抗攻击周围的逻辑差异,并提出了一种新的原则,即 Adversarial Logit Update (ALU),用于推断对抗样本的标签。基于 ALU,引入了一种新的分类范式,利用预净化和后净化的逻辑差异来提高模型的对抗鲁棒性。经过广泛实验证明,所提出的解决方案在 CIFAR-10、CIFAR-100 和 tiny-ImageNet 数据集上相对于最先进的方法具有卓越的鲁棒性能。
Aug, 2023
本文旨在提高有针对性攻击中对抗样本的可转移性,通过在损失和特征方面提出两种不同的改进方法。首先,我们引入了一种新的规范化对数准确度校准方法,它同时考虑了对数边界和对数的标准差。其次,我们进一步研究了截断特征混合方法来减小源训练模型的影响,从而实现了额外的改进。在 ImageNet-Compatible 和 CIFAR-10 数据集上进行的实验证明了我们提出的两个组件的个别和相互优势,在黑盒有针对性攻击中取得了领先于现有方法的大幅度改进。
May, 2024
本文提出了基于统计学检测方法的分类器适应方法,提高了检测性能;并且提出了 Logit Mimicry Attack 方法生成对抗样本,通过该方法可以避开统计学检测和分类器方法;最后,通过该文献,可以证明对抗样本的检测,统计学检测和分类器检测都不具备鲁棒性。
Jul, 2019
本研究通过引入已训练的干净模型的分类边界来指导对抗训练,约束对抗性模型的 logits 与自然数据下的干净模型的 logits 相似,从而提高了模型的鲁棒性和自然数据的准确性。实验证明,该方法在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上具有新的最先进的鲁棒性,无需额外的真实或合成数据。
Nov, 2020
通过发现简单易用的可转移攻击可以取得很高的目标转移性能,本文提出了新的针对传输设置的评估方法,并显示了使用 logit loss 方法生成目标通用对抗扰动的有效性。
Dec, 2020
通过回收在更新模型参数过程中计算的渐变信息,提出了一种消除生成对抗样本开销的自由对抗训练算法,这个算法在 CIFAR-10 和 CIFAR-100 上达到了与 PGD 对抗训练相当的稳健性,其相比于自然训练的额外成本微不足道,并且可以比其他强对抗训练方法快 7 ~ 30 倍。使用单个带 4 个 P100 GPU 的工作站和 2 天运行时间,我们可以训练出针对大规模 ImageNet 分类任务的稳健模型,其对 PGD 攻击的准确率仍可保持在 40% 左右。
Apr, 2019
本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器,该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入,并显示出极强的泛化能力。
Apr, 2022