对 ReLu 神经网络进行梯度自由攻击可以提供对抗性攻击下的网络鲁棒性评估,相比于之前的最先进方法,可以更紧确地估计网络鲁棒性
Mar, 2019
使用涉及一系列方法来解释机器学习模型的决策,研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。
本文提出了一种网络权重初始化的方法,使其能够在更高噪声水平下学习,同时评估了在 MNIST 和 CIFAR10 数据集上增强对抗噪声对学习范围的影响,并通过对简单多维伯努利分布的理论结果进行研究,提出了一些关于 MNIST 数据集可行扰动范围的见解。
Mar, 2020
本文发现了一种称为 “混淆梯度” 的梯度掩码现象,该现象导致了对抗性攻击防御中的安全虚假感。通过针对这种现象的攻击技术研究,我们发现依赖于混淆梯度的防御可以被规避,因此需要更可靠的防御机制。
Feb, 2018
该论文提出了一种通过最坏情况遮盖来提高模型不变性的方法 Greedy Cutout,相比于 PatchCleanser 中的 Random Cutout 增强方式,通过使用 Greedy Cutout 可以提高模型的认证鲁棒性。
Jun, 2023
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
在神经网络的研究中,我们开发了一种新的梯度基础的对抗攻击方法,相较于已有的攻击方法,它更可靠,可以适应广泛的对抗标准,并且在提高效率的同时,不需要进行超参数调整,这将对神经网络的鲁棒性评估做出有益的贡献。
Jul, 2019
该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性,并发现只有使用对抗样本进行训练才能获得鲁棒性,并分析了鲁棒性和准确性之间的权衡。
本文提出了一种基于上下文的 CLARE 模型,通过掩码插值过程生成流畅和语法正确的对抗样例,旨在发现自然语言处理模型的脆弱性,并通过三个上下文化扰动方法 —— 替换、插入、合并,产生不同长度的文本以提高攻击效率,并通过实验和人类评估证明了相对于基线模型,CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。
Sep, 2020