带有拒绝机制的分层对抗鲁棒性

ICMLMay, 2023

Stratified Adversarial Robustness with Rejection

Jiefeng Chen, Jayaram Raghuram, Jihye Choi, Xi Wu, Yingyu Liang...

TL;DR针对分类器的对抗训练模型中的拒绝选项，根据拒绝代价模型，提出了一种新的防御方法 —— 基于一致性预测的拒绝的对抗训练模型，实验证明在强适应性攻击中具有明显的性能优势。

Abstract

Recently, there is an emerging interest in adversarially training a classifier with a rejection option (also known as a selective classifier

adversarial training classifier rejection option robustness defense method

发现论文，激发创造

ATRO: 带有拒绝选项的对抗训练

本文提出了 Adversarial Training with a Rejection Option (ATRO) 的分类框架，以减轻对抗样本带来的性能恶化问题，并在实验中证实了此方法的有效性。

Oct, 2020

基于代价敏感分类的拒绝分类

本文提出了一个基于代价敏感分类器的集成学习方法，用于分类与拒绝模型，它允许灵活选择损失函数并且适用于二分类和多分类情形。实验结果表明我们提出的方法在不同类型的分类任务中表现良好。

Oct, 2020

对抗性样本的代价敏感强健性

本文研究了在实际应用中，某些对抗变换的重要性可能比其他变换更高的情况下，如何衡量分类器在对抗干扰下的鲁棒性，并提出了一般性的目标函数，将 Wong 和 Kolter（2018）的鲁棒训练方法进行了改进。通过实验证明，所提出的方法可以显著降低成本敏感鲁棒错误，同时保持分类准确性。

Oct, 2018

两种耦合的拒绝度量可以区分对抗性样本

通过引入可拒绝的机制并使用置信度和修正后的置信度 (R-Con) 来提高鲁棒性，从而更好地检测和拒绝对抗样本。

May, 2021

基于成本拒绝的回归

针对具有连续和无限目标空间的回归问题，提出了一种新颖的基于成本拒绝的回归模型，其可以通过考虑拒绝成本来拒绝对某些示例进行预测。该研究首先建立了该问题的期望风险模型，然后导出了贝叶斯最优解，表明当使用均方误差作为评估指标时，最优模型应拒绝对方差大于拒绝成本的示例进行预测。此外，提出使用考虑拒绝作为二分类的替代损失函数进行模型训练，并提供了模型一致性的条件，表明我们提出的替代损失函数可以恢复贝叶斯最优解。大量实验证明了我们提出方法的有效性。

Nov, 2023

安全玩法：具备放弃选项的对抗性鲁棒性

本文探讨了一种适用于分类器在对抗样本上放弃输出任何类别 (即通过放弃输出任何类别来实现对抗鲁棒性) 的情况下的对抗鲁棒性问题，提出了一种新的带有放弃选项的对抗鲁棒性目标函数，并提出了一个基于该目标函数的基准，最后提出了一种 Combined Abstention Robustness Learning (CARL) 方法来实现分类器及其应该放弃输出的输入空间的区域的联合学习。通过对 PGD 和 DeepFool 等攻击的评估，得出使用 CARL 训练的分类器比基准分类器更精确、更鲁棒、更有效。

Nov, 2019

关于多类分类与拒绝机制的校准

本文研究了多类别分类问题中的拒绝机制，提出了同时训练分类器和拒绝器的方法，并探讨了针对更广泛损失函数的可接受标准，最终通过实验验证了理论发现的相关性。

Jan, 2019

朝着高准确度的概率鲁棒性认证

通过提出一种新的方法，同时追求高准确性和具有认证的概率鲁棒性，我们的实验显示该方法在多个模型和数据集上的认证率和准确性方面明显优于现有方法。

Sep, 2023

朝着对抗性样本的稳健检测

本论文提出一种新颖的训练方法和阈值测试策略，以实现对恶意制造的对抗样本的鲁棒检测。在训练中，我们提出了最小化反交叉熵（RCE）的方法，以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中，我们提出了使用阈值策略作为检测器，以过滤出对抗样本，以实现可靠预测，我们的方法使用标准算法简单实现，与常见的交叉熵最小化相比，几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法，并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。

Jun, 2017

深度神经网络的选择性分类

本文提出了一种构造选择分类器的方法，可在风险可控的情况下使用深度神经网络进行分类，解决了在深度神经网络中使用拒绝选项技术的问题，有效提高了分类器性能，成功实现了在 ImageNet 上顶部 5 项分类的 2% 错误率，并且测试覆盖率达到近 60%，为深度神经网络在关键应用中的应用提供了可能性。

May, 2017