该论文提出了一种基于生成对抗网络 (GAN) 框架下的新防御机制来对抗黑盒攻击,在经验上表现良好并能与利用梯度下降的集成对抗训练和对抗训练等最先进的方法媲美。
May, 2019
本文研究基于条件概率生成模型的鲁棒分类,分析探究了在检测异常输入和标签错误等方面的鲁棒性,结果显示,生成分类器很难保证对抗性扰动的检测能力,并指出基于最大似然训练目标的生成模型在构建具有鲁棒性模型时存在缺陷,致使其在 CIFAR10 数据集上的表现不佳。
Jun, 2019
Defense-GAN 使用生成模型来抵御深度神经网络受到的对抗性攻击,并不需要修改分类器结构或者训练过程,可以适用于任何分类模型,并且不需要了解生成对抗性示例的过程。在不同的攻击方法下,实验证明 Defense-GAN 对抗性攻击防御策略具有一致的有效性,并可以提高现有的防御策略。
May, 2018
对付对抗性样本的一个新的检测方法:使用基于二进制分类器的技巧来区分干净样本和受到敌意扰动的样本,并通过生成方法来检测和分类对抗性样本。
本文研究了对抗扰动现象,并推导了任何分类函数的鲁棒性的基本上界,以及证明了存在跨不同分类器传递的具有小风险的对抗扰动。研究显示了生成模型的关键属性,如平滑性和潜在空间的维度,并提供了信息量大的鲁棒性基线。
Feb, 2018
本研究连接了利用对抗训练 (adversarial training,AT) 训练的鲁棒判别器和基于能量的生成模型 (Energy-based Models,EBM),通过分解判别器的损失并展示判别模型也能意识到输入数据密度实现。研究发现,令人惊讶的是,输入空间中未定向攻击点非常可能在判别分类器中隐藏的生成模型里 —— 即 EBM 中的能量非常低。我们展示了两个证据:未定向攻击比自然数据甚至更可能出现,当攻击强度增强时,它们的可能性也会增加。这使得我们能够轻松检测它们,并设计了一种名为 High-Energy PGD 的新型攻击方法,它能欺骗分类器但具有与数据集相似的能量。
Apr, 2023
本文研究在简单自然数据模型中,对抗鲁棒学习的样本复杂度可以显著大于标准学习,这个差距是信息理论的,且与训练算法或模型家族无关。作者做了一些实验来证实这个结果。我们可以假设训练鲁棒分类器的困难,至少部分来自这种固有的更大的样本复杂度。
Apr, 2018
我们提出了一种新的技术,使用生成对抗网络使神经网络对抗性示例具有鲁棒性,通过交替训练分类器和生成器网络,我们成功地应用于 CIFAR 数据集的监督学习,实验结果表明我们的方法显著降低了网络的泛化误差。这是我们所知道的第一个使用 GAN 改进监督学习的方法。
May, 2017
本文提出了一种使用生成模型来检测分类器失效的方法,在三种分类错误中测试了该方法的有效性,并探讨了半监督学习中不受类标签影响的适用性。
Oct, 2020
本文旨在分析大数据下拟贝叶斯神经网络 (Bayesian Neural Networks) 对抗性攻击 (Adversarial Attack) 的几何特征,证明当数据分布存在退化时,对抗性攻击的易感性增加,并证明拟贝叶斯神经网络后验概率分布的期望梯度为零,因此在 MNIST、Fashion MNIST 和半月形数据集上,拟贝叶斯神经网络可展现出对于基于梯度和基于无梯度攻击的同时鲁棒性和高准确率。
Jul, 2022