两种耦合的拒绝度量可以区分对抗性样本

CVPRMay, 2021

两种耦合的拒绝度量可以区分对抗性样本

Two Coupled Rejection Metrics Can Tell Adversarial Examples Apart

Tianyu Pang, Huishuai Zhang, Di He, Yinpeng Dong, Hang Su...

TL;DR通过引入可拒绝的机制并使用置信度和修正后的置信度 (R-Con) 来提高鲁棒性，从而更好地检测和拒绝对抗样本。

Abstract

Correctly classifying adversarial examples is an essential but challenging requirement for safely deploying machine learning models. As reported in RobustBench, even the state-of-the-art adversarially trained mod

adversarial examples machine learning models robustness rejection option confidence

发现论文，激发创造

带有拒绝机制的分层对抗鲁棒性

针对分类器的对抗训练模型中的拒绝选项，根据拒绝代价模型，提出了一种新的防御方法 —— 基于一致性预测的拒绝的对抗训练模型，实验证明在强适应性攻击中具有明显的性能优势。

May, 2023

朝着对抗性样本的稳健检测

本论文提出一种新颖的训练方法和阈值测试策略，以实现对恶意制造的对抗样本的鲁棒检测。在训练中，我们提出了最小化反交叉熵（RCE）的方法，以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中，我们提出了使用阈值策略作为检测器，以过滤出对抗样本，以实现可靠预测，我们的方法使用标准算法简单实现，与常见的交叉熵最小化相比，几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法，并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。

Jun, 2017

度量指导的对抗式句子生成

本文提出了一个 rewrite and rollback（R&R）框架，该框架通过优化批判分数来改进对抗样例的质量，结合流畅度、相似性和错分类度量，提高了对抗样例的质量，并在 5 个代表性数据集和 3 种分类器架构上进行了评估，攻击成功率分别增加了 + 16.2％，+12.8％和 + 14.0％。

Apr, 2021

内外分布上的对抗鲁棒性改进可解释性

本文提出基于 RATIO 的 Robustness via Adversarial Training on In- and Out-distribution 的训练方法，可用于提高神经网络在图像分类方面的稳健性和可靠性，同时维持更高的干净精度水平。

Mar, 2020

统计鲁棒神经网络分类

为了解决在某些场景下对抗风险无法提供适当的强健度度量的问题，我们开发了一个概率强健风险框架（SRR），它考虑到逐点损坏分布而不是最坏情况下的对手。我们展示了 SRR 的评估和训练方案与自然风险相当简单且高效，能提供优秀的泛化性能，适用于高维数据集。

Dec, 2019

准确性和鲁棒性是否相关？

通过利用深度卷积神经网络生成对抗性样本，然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异，最后在跨模型对抗迁移上进行了大规模实验，研究结果表明对抗性样本在相似的网络拓扑间是可传递的，并且更好的机器学习模型更不容易受到对抗性样本的攻击。

Oct, 2016

使用 Reed-Muller 码进行分类、拒绝和恢复

Reed-Muller Aggregation Networks (RMAggNet) is proposed as a classifier that can correct and reject inputs, minimizing incorrectness and maintaining good correctness over multiple adversarial attacks.

Sep, 2023

指导卷积神经网络针对对抗输入进行重新训练

研究寻求最佳指引指标和优化数据集配置来提高卷积神经网络模型对抗性输入的准确性和资源利用率，通过实证研究发现，在使用惊奇充分度量作为指引度量进行重新训练时，通过使用原始权重和排序后的惊奇充分度量训练模型，可以在不使用大量输入的情况下改善模型对抗性输入的性能。

Jul, 2022

对抗性样本的代价敏感强健性

本文研究了在实际应用中，某些对抗变换的重要性可能比其他变换更高的情况下，如何衡量分类器在对抗干扰下的鲁棒性，并提出了一般性的目标函数，将 Wong 和 Kolter（2018）的鲁棒训练方法进行了改进。通过实验证明，所提出的方法可以显著降低成本敏感鲁棒错误，同时保持分类准确性。

Oct, 2018

关于多类分类与拒绝机制的校准

本文研究了多类别分类问题中的拒绝机制，提出了同时训练分类器和拒绝器的方法，并探讨了针对更广泛损失函数的可接受标准，最终通过实验验证了理论发现的相关性。

Jan, 2019