对抗样本认证防御

ICLRJan, 2018

Certified Defenses against Adversarial Examples

Aditi Raghunathan, Jacob Steinhardt, Percy Liang

TL;DR研究使用半定松弛来提高神经网络对于小的对抗扰动的鲁棒性，并且证明了其相比于其他防御方法更加有效。

Abstract

While neural networks have achieved high accuracy on standard image classification benchmarks, their accuracy drops to nearly zero in the presence of small adversarial perturbations to test inputs. Defenses based

neural networks adversarial perturbations regularization semidefinite relaxation robustness

发现论文，激发创造

对抗性样本鲁棒性的半正定松弛证明

本文提出了一种新的半定松弛办法，用于证明针对任意 ReLU 网络的鲁棒性，显示该松弛法比先前的松弛法更严格，并在三个不同的训练对象对我们的建议松弛法不感兴趣。

Nov, 2018

针对 ReLU 网络的对抗性样本的鲁棒性证书

本文提出一种基于深度 ReLU 网络的攻击不可知的稳健性证书，用于多标签分类问题，通过利用 ReLU 网络的分段线性结构，提出了两个距离下界，分别为单纯形证书和决策边界证书，其中单纯形证书具有闭合形式，可微性和计算速度快的特点，并在 MNIST 数据集上验证其理论有效性。

Feb, 2019

深度防御：用改进的对抗训练训练 DNNs 提高其鲁棒性

本文提出了一种名为 “deep defense” 的训练方法来解决深度神经网络易受到对抗样本攻击的问题，通过将对抗扰动的正则化器与分类目标相结合，得到的模型能够直接且准确地学习抵御潜在的攻击，实验证明该方法在不同数据集上对比对抗 / Parseval 正则化方法有更好的效果。

Feb, 2018

加强对抗性容错性评估的置信度

该研究提出了一种测试方法以识别弱攻击和防御评估，为了增强透明和信心，将攻击单元测试作为未来强度评估的重要组成部分。

Jun, 2022

可证明的最小扭曲对抗样本

利用形式验证技术构建对抗样本，证明这些样本是最小扭曲的，从而增加了对抗性训练的鲁棒性。

Sep, 2017

具有差分隐私的对抗样本可靠性认证

本文介绍一种名为 PixelDP 的新型防御技术，它是基于差分隐私的一种新型密码学概念，可以为大型数据集和任意模型类型提供强大的保护机制，具有防范对抗性例子的鲁棒性保证。

Feb, 2018

通过正则化对抗梯度实现神经网络的鲁棒训练

通过限制神经网络的对抗梯度并增加对抗性样本生成的难度，提高了神经网络的鲁棒性，使其能够抵御各种类型的对抗性攻击，特别是迁移攻击。

May, 2018

CC-Cert: 一种概率方法来证明神经网络的普适鲁棒性

本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法，可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现，证明了我们的方法对于语义扰动具有防御能力。

Sep, 2021

通过一致性正则化提高神经网络的认证鲁棒性

该研究探讨了虚假分类样本导致的不一致性，并通过添加新的一致性正则化项来更好地利用虚假分类样本，提出了一种新的防御规则项，称为 Misclassification Aware Adversarial Regularization（MAAR），在 CIFAR-10 和 MNIST 数据集上实现了最佳的认证鲁棒性和可比较的准确性。

Dec, 2020

对抗性样本的（不）可避免性

该研究提出了一个确定深度学习模型标签更改是否合理的框架，并且定义了一个自适应的鲁棒性损失，使用导出的经验公式，开发了相应的数据增强框架和评估方法，证明了其对确定性标签下的一阶最近邻分类的维持一致性，并提供了实证评估结果。

Jun, 2021