安全玩法：具备放弃选项的对抗性鲁棒性

Nov, 2019

安全玩法：具备放弃选项的对抗性鲁棒性

Playing it Safe: Adversarial Robustness with an Abstain Option

Cassidy Laidlaw, Soheil Feizi

TL;DR本文探讨了一种适用于分类器在对抗样本上放弃输出任何类别 (即通过放弃输出任何类别来实现对抗鲁棒性) 的情况下的对抗鲁棒性问题，提出了一种新的带有放弃选项的对抗鲁棒性目标函数，并提出了一个基于该目标函数的基准，最后提出了一种 Combined Abstention Robustness Learning (CARL) 方法来实现分类器及其应该放弃输出的输入空间的区域的联合学习。通过对 PGD 和 DeepFool 等攻击的评估，得出使用 CARL 训练的分类器比基准分类器更精确、更鲁棒、更有效。

Abstract

We explore adversarial robustness in the setting in which it is acceptable for a classifier to abstain---that is, output no class---on adversarial examples. Adversarial examples are small perturbations of normal

adversarial robustness abstain option classifier safety-critical applications carl

发现论文，激发创造

通过弃权实现序列预测中的对抗韧性

本研究提出一种介于纯随机和完全对抗的序列预测模型，可在不损失成本的情况下避免对注入干扰项的干净标签对抗（或超出分布）示例进行预测；同时使用 VC 维度来量化不确定性，且不需要访问条件分布。

Jun, 2023

通过联合分类和多个显式检测类别提高对抗鲁棒性

通过采用正则化方法和训练方法解决加入多个 “弃权” 类别导致 “模型退化” 的问题，进一步扩展了联合鲁棒分类 - 检测的可证明框架，一定程度上提高了多种选择下的标准与鲁棒验证准确度的折衷结果，胜过现有算法。

Oct, 2022

使用弃权法解决深度学习中的标签噪声问题

使用一种新的损失函数来训练深度神经网络进行分类并进行避免错标操作，使 DNN 在困惑的样本上避免误差，并在非避免的样本上继续学习和提高分类性能，并证明其在不同类型的标签噪声下的强大实用性

May, 2019

不带伤害的公平分类器

在关键应用中，分类器将决策推迟给人类至关重要。我们提出了一种事后方法，使现有分类器有选择地放弃对某些样本的预测。我们的放弃分类器被激励以在满足用户指定的组公平性定义时保持原始准确性，同时实现一组群体公平性的程度。为此，我们设计了一种整数规划过程，为每个训练样本分配放弃决策以满足一组约束条件。为了将放弃决策推广到测试样本，我们训练了一个代理模型，以端到端的方式根据整数规划解决方案学习放弃决策。我们分析了整数规划过程的可行性，以确定实现无害性所需的不公平容忍度和准确性约束的可能放弃率。据我们所知，这项工作是首次确定约束参数与所需放弃率之间的理论关系。由于人力资源的不足，高放弃率在实践中通常是不可行的，因此我们的理论结果是重要的。我们的框架在保持类似放弃率时，在公平差异方面优于现有方法而不牺牲准确性。

Oct, 2023

应对分布偏移鲁棒性的有效基线

本研究通过在模型输入中添加专门的弃权类别，并在未经筛选的数据集中训练深度神经网络，建立有效分类器以识别无法归类的数据，并在图像和文本分类等领域上取得了良好表现。

May, 2021

预测者 - 排斥者多类弃权：理论分析与算法

我们研究了多类别分类中的学习与弃权的关键框架，介绍了一系列新的理论和算法结果，提出了几个新的代理损失函数家族，并分析了单阶段和两阶段学习设置的保证和应用，证明了我们的代理损失的优越性，并展示了广泛适用的两阶段弃权算法的卓越性能。

Oct, 2023

ATRO: 带有拒绝选项的对抗训练

本文提出了 Adversarial Training with a Rejection Option (ATRO) 的分类框架，以减轻对抗样本带来的性能恶化问题，并在实验中证实了此方法的有效性。

Oct, 2020

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021

对弃权分类器进行反事实比较

通过将放弃预测视为缺失数据，本文提出了一种新的方法和角度来评估和比较弃权分类器，并借助观察因果推断的工具，开发了非参数和双重保守估计方法来有效地估计该数量。

May, 2023

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023