两种耦合的拒绝度量可以区分对抗性样本
针对分类器的对抗训练模型中的拒绝选项,根据拒绝代价模型,提出了一种新的防御方法 —— 基于一致性预测的拒绝的对抗训练模型,实验证明在强适应性攻击中具有明显的性能优势。
May, 2023
本论文提出一种新颖的训练方法和阈值测试策略,以实现对恶意制造的对抗样本的鲁棒检测。在训练中,我们提出了最小化反交叉熵(RCE)的方法,以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中,我们提出了使用阈值策略作为检测器,以过滤出对抗样本,以实现可靠预测,我们的方法使用标准算法简单实现,与常见的交叉熵最小化相比,几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法,并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。
Jun, 2017
本文提出了一个 rewrite and rollback(R&R)框架,该框架通过优化批判分数来改进对抗样例的质量,结合流畅度、相似性和错分类度量,提高了对抗样例的质量,并在 5 个代表性数据集和 3 种分类器架构上进行了评估,攻击成功率分别增加了 + 16.2%,+12.8%和 + 14.0%。
Apr, 2021
本文提出基于 RATIO 的 Robustness via Adversarial Training on In- and Out-distribution 的训练方法,可用于提高神经网络在图像分类方面的稳健性和可靠性,同时维持更高的干净精度水平。
Mar, 2020
为了解决在某些场景下对抗风险无法提供适当的强健度度量的问题,我们开发了一个概率强健风险框架(SRR),它考虑到逐点损坏分布而不是最坏情况下的对手。我们展示了 SRR 的评估和训练方案与自然风险相当简单且高效,能提供优秀的泛化性能,适用于高维数据集。
Dec, 2019
通过利用深度卷积神经网络生成对抗性样本,然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异,最后在跨模型对抗迁移上进行了大规模实验,研究结果表明对抗性样本在相似的网络拓扑间是可传递的,并且更好的机器学习模型更不容易受到对抗性样本的攻击。
Oct, 2016
Reed-Muller Aggregation Networks (RMAggNet) is proposed as a classifier that can correct and reject inputs, minimizing incorrectness and maintaining good correctness over multiple adversarial attacks.
Sep, 2023
研究寻求最佳指引指标和优化数据集配置来提高卷积神经网络模型对抗性输入的准确性和资源利用率,通过实证研究发现,在使用惊奇充分度量作为指引度量进行重新训练时,通过使用原始权重和排序后的惊奇充分度量训练模型,可以在不使用大量输入的情况下改善模型对抗性输入的性能。
Jul, 2022
本文研究了在实际应用中,某些对抗变换的重要性可能比其他变换更高的情况下,如何衡量分类器在对抗干扰下的鲁棒性,并提出了一般性的目标函数,将 Wong 和 Kolter(2018)的鲁棒训练方法进行了改进。通过实验证明,所提出的方法可以显著降低成本敏感鲁棒错误,同时保持分类准确性。
Oct, 2018