带有拒绝机制的分层对抗鲁棒性
本文提出了 Adversarial Training with a Rejection Option (ATRO) 的分类框架,以减轻对抗样本带来的性能恶化问题,并在实验中证实了此方法的有效性。
Oct, 2020
本文提出了一个基于代价敏感分类器的集成学习方法,用于分类与拒绝模型,它允许灵活选择损失函数并且适用于二分类和多分类情形。实验结果表明我们提出的方法在不同类型的分类任务中表现良好。
Oct, 2020
本文研究了在实际应用中,某些对抗变换的重要性可能比其他变换更高的情况下,如何衡量分类器在对抗干扰下的鲁棒性,并提出了一般性的目标函数,将 Wong 和 Kolter(2018)的鲁棒训练方法进行了改进。通过实验证明,所提出的方法可以显著降低成本敏感鲁棒错误,同时保持分类准确性。
Oct, 2018
针对具有连续和无限目标空间的回归问题,提出了一种新颖的基于成本拒绝的回归模型,其可以通过考虑拒绝成本来拒绝对某些示例进行预测。该研究首先建立了该问题的期望风险模型,然后导出了贝叶斯最优解,表明当使用均方误差作为评估指标时,最优模型应拒绝对方差大于拒绝成本的示例进行预测。此外,提出使用考虑拒绝作为二分类的替代损失函数进行模型训练,并提供了模型一致性的条件,表明我们提出的替代损失函数可以恢复贝叶斯最优解。大量实验证明了我们提出方法的有效性。
Nov, 2023
本文探讨了一种适用于分类器在对抗样本上放弃输出任何类别 (即通过放弃输出任何类别来实现对抗鲁棒性) 的情况下的对抗鲁棒性问题,提出了一种新的带有放弃选项的对抗鲁棒性目标函数,并提出了一个基于该目标函数的基准,最后提出了一种 Combined Abstention Robustness Learning (CARL) 方法来实现分类器及其应该放弃输出的输入空间的区域的联合学习。通过对 PGD 和 DeepFool 等攻击的评估,得出使用 CARL 训练的分类器比基准分类器更精确、更鲁棒、更有效。
Nov, 2019
本论文提出一种新颖的训练方法和阈值测试策略,以实现对恶意制造的对抗样本的鲁棒检测。在训练中,我们提出了最小化反交叉熵(RCE)的方法,以鼓励深度网络学习更好地区分对抗样本和正常样本的潜在表示。在测试中,我们提出了使用阈值策略作为检测器,以过滤出对抗样本,以实现可靠预测,我们的方法使用标准算法简单实现,与常见的交叉熵最小化相比,几乎没有额外的训练成本。我们将该方法应用于广泛使用的 MNIST 和 CIFAR-10 数据集上的各种攻击方法,并在对抗环境下的所有威胁模型中实现显著的鲁棒预测改进。
Jun, 2017
本文提出了一种构造选择分类器的方法,可在风险可控的情况下使用深度神经网络进行分类,解决了在深度神经网络中使用拒绝选项技术的问题,有效提高了分类器性能,成功实现了在 ImageNet 上顶部 5 项分类的 2% 错误率,并且测试覆盖率达到近 60%,为深度神经网络在关键应用中的应用提供了可能性。
May, 2017